Apache Hadoopは、ビッグデータの分散コンピューティングのためのオープンソースソリューションです
ビッグデータとは、検索エンジン、ポイントカードで追跡される食料品店の購入パターンなどのソースからデータマイニング strong>の概念全体を網羅するマーケティング用語です。現代の世界では、インターネットには非常に多くのデータがあります。データのソース。多くの場合、スケールによって処理せずに使用できなくなり、1つのサーバーで処理に非常に長い時間がかかります。 ApacheHadoopを入力してください
データ処理にかかる時間を短縮
Hadoopアーキテクチャを活用して処理タスクをネットワーク上の複数のマシンに分散することで、処理時間が天文学的に短縮され、適切な量で回答を決定できます。時間の。 Apache Hadoopは、ストレージコンポーネントと処理コンポーネントの2つの異なるコンポーネントに分割されています。簡単に言うと、Hapoodは複数の物理マシンから1つの仮想サーバーを作成します。実際には、Hadoopは複数のマシン間の通信を管理して、計算を行っているマシンが1台しかないように見えるように緊密に連携します。データは複数のマシンに分散され strong>、保存され、 処理タスクは、Hadoopアーキテクチャによって割り当てられ調整されます。このタイプのシステムは、生データをビッグデータ入力の規模で有用な情報に変換するための要件です。検索リクエストを入力するユーザーからGoogleが毎秒受信するデータの量を考慮してください。データの総塊として、どこから始めればよいかわかりませんが、Hadoopはデータセットを自動的に小さく整理されたデータのサブセットに減らし、これらの管理可能なサブセットを特定のリソースに割り当てます。その後、すべての結果が報告され、使用可能な情報にまとめられます。
設定が簡単なサーバー
システムは複雑に聞こえますが、ほとんどの可動部分は抽象化の背後に隠されています。 Hadoopサーバーのセットアップは非常に簡単です。システム要件を満たすハードウェアにサーバーコンポーネントをインストールするだけです。難しいのは、Hadoopサーバーよりもコンピューターのネットワークを計画することです。ストレージと処理の役割を分散するために利用します。これには、ローカルエリアネットワークの設定またはインターネットを介した複数のネットワークの接続が含まれる場合があります。また、既存のクラウドサービスを利用して、MicrosoftAzureやAmazonEC2などの一般的なクラウドプラットフォームでHadoopクラスターの料金を支払うこともできます。これらは、アドホックにスピンアップして、不要になったときにクラスターを廃止できるため、構成がさらに簡単になります。これらのタイプのクラスターは、Hadoopクラスターがアクティブな時間に対してのみ料金を支払うため、テストに最適です。 p>
データを処理して必要な情報を取得する
ビッグデータは非常に強力なリソースですが、適切に分類して情報に変換できない限り、データは役に立ちません。現在、Hadoop クラスターは、これらのデータのコレクションを情報に処理するための非常に費用対効果の高い方法を提供します。 p>
ユーザーレビュー
あなたはApache Hadoopを試したことがありますか?あなたの意見を残して最初に!