Amazon EMR

Amazon Elastic MapReduce (Amazon EMR) は、大量のデータを迅速、容易に、かつコスト効果よく処理するためのウェブサービスです。

Amazon EMR は、ビッグデータ処理を簡略化し、動的にスケーラブルな Amazon EC2 インスタンス間の莫大な量のデータを処理し、配信するための、簡単、迅速、費用対効果が高い、マネージド型 Hadoop フレームワークを提供します。また、Apache Spark や Presto などの一般的な他のフレームワークを Amazon EMR で実行することや、Amazon S3 や Amazon DynamoDB などの他の AWS データストア内でデータを操作することができます。

Amazon EMR は、ログの分析、ウェブインデックス、データウェアハウジング、機械学習、財務分析、科学シミュレーション、生物情報科学研究を含む、お客様のビッグデータを確実かつ安全に処理します。

Amazon EMR のご紹介（日本語字幕） (3:06)

AWS を無料でお試しください

まずは無料で始める »
またはコンソールにサインイン

大規模なデータ処理要件がある場合は、割引料金が適用される可能性があります。

詳細については、お問い合わせください。

日本担当チームへお問い合わせ »

AWS ビッグデータブログの Amazon EMR

Combine NoSQL and Massively Parallel Analytics Using Apache HBase and Apache Hive on Amazon EMR

Anomaly Detection Using PySpark, Hive, and Hue on Amazon EMR

Optimize Spark-Streaming to Efficiently Process Amazon Kinesis Streams

Submitting User Applications with spark-submit

Turning Amazon EMR into a Massive Amazon S3 Processing Engine with Campanile

Amazon EMR の新機能

お客様の導入事例

Krux では、AWS を使用して、データ処理要件を管理しています。 »

CrowdStrike は、Amazon EMR で Spark を使用することにより、数百テラバイトのイベントデータを処理して悪意のあるアクティビティの存在を識別しています。 »

GumGum では、Amazon EMR の Spark を在庫予測、クリックストリームログの処理、Amazon S3 の非構造化データのアドホック分析のために利用しています。 »

Kik は、Amazon EMR & Hadoop Pig スクリプトを使用して、膨大なログファイルデータが Amazon Redshift にロードされる前に処理しています。 »

Yelp では、ハードウェアへの先行投資費用を 55,000 USD 節約できました。 »

Expedia は、ウェブサイトのグローバルネットワークからクリックストリームデータを処理します。 »

金融業界規制当局は市場力学の変化に適応できる柔軟性の高いプラットフォームを Amazon EMR で作成しています。 »

DataXu は、AWS で毎月 30 兆件の広告機会を評価しています。 »

SnowPlow »

Channel 4 は、ビデオオンデマンドサービスの顧客のユーザーインタラクションデータを分析します。 »

Swipely は、数百万のクレジットカードトランザクションから洞察を導き出しています。 »

分析チームは Amazon EMR と Hadoop を活用して、データを集計、分析しています。 »

Amazon EMR のオープンソースアプリケーション

Amazon EMR のバージョニングリリースにより、EMR cluster で Apache Hadoop および Spark エコシステムのアプリケーションを含む最新のオープンソースプロジェクトを簡単に選択して使用できます。ソフトウェアは Amazon EMR によってインストールおよび設定されるので、管理タスクに費やす時間を短縮してデータの値を増やすことに集中できます。

特徴と利点

使いやすい

Amazon EMR クラスターは数分で起動できます。ノードのプロビジョニング、クラスターのセットアップ、Hadoop の設定、クラスターのチューニングなど、わずらわしい作業は不要です。Amazon EMR がこのような作業を行いますので、お客様は分析に専念できます。

低コスト

Amazon EMR の料金体系は予想がしやすくシンプル: 使用するインスタンスの時間ごとに 1 時間単位で料金を支払います。10 ノードの Hadoop クラスターの運用をわずか 0.15 USD/時間で開始できます。Amazon EMR は Amazon EC2 のスポットインスタンスとリザーブドインスタンスをネイティブサポートしているため、基盤となるインスタンスのコストを 50～80% 節約することもできます。

伸縮自在性

Amazon EMR は、コンピューティングインスタンスを 1 つでも数百、数千でもプロビジョニングできるため、あらゆる規模のデータ処理に対応します。インスタンス数は簡単に増減でき、お支払いは使った分のみの従量料金制です。

信頼性

クラスターの調整やモニタリングにかかる労力も削減できます。Amazon EMR にはクラウド用の調整された Hadoop があり、クラスターをモニタリングして失敗したタスクを再試行し、自動的にパフォーマンスの低いインスタンスを置き換えます。

安全性

Amazon EMR は Amazon EC2 インスタンスへのネットワークアクセスを制御するファイアウォールの各種設定を自動的に構成します。また、お客様が定義する論理的に隔離されたネットワークである Amazon Virtual Private Cloud（VPC）内にクラスターを起動することも可能です。Amazon S3 に保存されたオブジェクトの場合、AWS Key Management Service またはカスタマー管理型のキーを使用して Amazon S3 サーバー側の暗号化または Amazon S3 クライアント側の暗号化と EMRFS を使用できます。