MicrosoftはAzure Data Lakeの計画を進化させ、パブリックプレビュー

Microsoftは4月にBuild ConferenceでAzure Data Lakeサービスの計画を発表したが、同社の関係者は今後のエンタープライズ規模のクラウドデータリポジトリに何をもたらすのかを明確にした。

クラウド;クラウドコンピューティングは一度に1つのAPI、エンタープライズソフトウェア、甘いSUSE! HPはLinuxディストリビューションを曇らせる、クラウド、Twilioは新しいエンタープライズプランをより敏捷性を約束する、クラウド、Intel、Ericssonがパートナーシップを拡大してメディア業界に注力

Microsoftは9月28日、Azure Data Lakeサービスの技術的基盤は、「Cosmos」の大容量データストレージおよび分析サービスの一環として社内で使用されているものに基づいていると公式に発表しました。

4月以来、Azure Data Lakeは、Hortonworks Hadoop分散ファイルシステム(HDFS)と互換性のある、自ら記述した「クラウド内の大規模なデータ分析ワークロード用のハイパースケールリポジトリ」であることがわかっています。当時、マイクロソフトはAzure Data Lakeストアの今後のプレビューの通知に登録することを望んでいる人にアドバイスしました。

今年の初め、私は、Microsoftが個人的にAzure Data Lakeの主要コンポーネントであることをテストしていたという連絡をいくつか聞いた。分析エンジンのコードネーム「Kona」、コードネーム「Cabo」のストレージエンジン部分、SQL-IPと呼ばれる新しいSQL対応言語がありました。今日、マイクロソフトはAzure Data Lake Analytics、Azure Data Lake Store、U-SQ Lなど、同じ名前の新しい記事を公表しました。

マイクロソフトの関係者は、本日、分析エンジンとストアは、今年中に公開プレビューで利用できるようになると語った。

Azure Data Lakeは、WindowsおよびLinux用のMicrosoftのHadoop-on-AzureサービスHDInsightと連携します。 (Ubuntuで動作するLinux版のHDInsightは、今日から一般に入手可能で、Windows版は2013年から利用可能です。)

Azure Data LakeのMicrosoftの最も重要な目標は、お客様がどこからでも、あらゆるデータから最大限の洞察を抽出できるようにすることです」とT.K氏は述べています。 “Ranga” Rengarajan、マイクロソフトのデータプラットフォーム担当副社長。

Microsoftのコスモスサービスは、マイクロソフト社以外のものが有料サービスとして利用できるようなものに変えようとしていたものの、コスモスのインフラをAzureで市販するだけではありません。

CosmosはAzure、Bing、AdCenter、MSN、Skype、Windows Liveのデータを扱う大規模並列ストレージと計算サービスです。最近のマイクロソフトの求人情報によると、Cosmosを使用しているMicrosoftには、5,000人の開発者と「何千人ものユーザー」がいます。

Hadoop 2.0を使用すると、MapReduceの負荷が軽減され、分散ファイルシステムの信頼性が向上します。

Cosmosは、MicrosoftのDryad分散処理テクノロジを使用して構築されました。マイクロソフトはCosmosを使用してテレメトリデータを処理し、BingやOffice 365で作成したような大規模なデータセットの分析とレポート作成、さまざまな種類のデータのバックエンド処理の管理と実行を行います。これらのさまざまな目的に使用される多くのデータが共有されています。このデータに対するクエリは、1台から40,000台のマシンを並列に実行することができます。

代わりに、マイクロソフトではAzureの顧客に対して、Dryadを使用しないCosmosのバリエーションを構築しました。アナリティクスはApache YARN上に構築され、このストアはHDFSと互換性があります。 Microsoftが「SQLの使いやすさとC#の表現力を統一する新しいクエリ言語」と表現しているU-SQLは、内部的に使用され、開発されたSCOPE言語から並列クエリを実行するという手がかりを取ります。

このAzure Data LakeはCosmosよりも野心的ですが、Apache Sparkやデータウェアハウスなどにもインスパイアされています。私たちはこの問題を何年も考えてきました。

マイクロソフト社の社内でのコスモスの使用は、コスモス社が並列計算について多くのことを教えてくれているが、「コスモスは違うやり方で構築されている」とレンガラジャン氏は語る。最近数千時間に数千台のマシンで実行されるものをデバッグする方法や、数千台のマシンでクエリを実行する方法について、ユーザは解決策を探していますが、それはまだよく知られています。

クラウドコンピューティングの成長

甘いSUSE! HPEがLinuxディストリビューションに突入

Twilio、新しいエンタープライズプランを発表

インテル、エリクソン、メディア業界に注力するためのパートナーシップを拡大