Amazon Elastic MapReduce (Amazon EMR) は、大量のデータを迅速、容易に、かつコスト効果よく処理するためのウェブサービスです。
Amazon EMR は、ビッグデータ処理を簡略化し、動的にスケーラブルな Amazon EC2 インスタンス間の莫大な量のデータを処理し、配信するための、簡単、迅速、費用対効果が高い、マネージド型 Hadoop フレームワークを提供します。また、Apache Spark や Presto などの一般的な他のフレームワークを Amazon EMR で実行することや、Amazon S3 や Amazon DynamoDB などの他の AWS データストア内でデータを操作することができます。
Amazon EMR は、ログの分析、ウェブインデックス、データウェアハウジング、機械学習、財務分析、科学シミュレーション、生物情報科学研究を含む、お客様のビッグデータを確実かつ安全に処理します。
AWS を無料でお試しください
まずは無料で始める »またはコンソールにサインイン
大規模なデータ処理要件がある場合は、割引料金が適用される可能性があります。
詳細については、お問い合わせください。
Combine NoSQL and Massively Parallel Analytics Using Apache HBase and Apache Hive on Amazon EMR
Anomaly Detection Using PySpark, Hive, and Hue on Amazon EMR
Optimize Spark-Streaming to Efficiently Process Amazon Kinesis Streams
Submitting User Applications with spark-submit
Turning Amazon EMR into a Massive Amazon S3 Processing Engine with Campanile
Amazon EMR のバージョニングリリースにより、EMR cluster で Apache Hadoop および Spark エコシステムのアプリケーションを含む最新のオープンソースプロジェクトを簡単に選択して使用できます。ソフトウェアは Amazon EMR によってインストールおよび設定されるので、管理タスクに費やす時間を短縮してデータの値を増やすことに集中できます。
Amazon EMR は、コンピューティングインスタンスを 1 つでも数百、数千でもプロビジョニングできるため、あらゆる規模のデータ処理に対応します。インスタンス数は簡単に増減でき、お支払いは使った分のみの従量料金制です。
Amazon EMR は Amazon EC2 インスタンスへのネットワークアクセスを制御するファイアウォールの各種設定を自動的に構成します。また、お客様が定義する論理的に隔離されたネットワークである Amazon Virtual Private Cloud(VPC)内にクラスターを起動することも可能です。Amazon S3 に保存されたオブジェクトの場合、AWS Key Management Service またはカスタマー管理型のキーを使用して Amazon S3 サーバー側の暗号化または Amazon S3 クライアント側の暗号化と EMRFS を使用できます。
Amazon EMR はクリックストリームデータを分析して、ユーザーを区分したりユーザーの好みを理解したりする目的にも使用できます。広告主もクリックストリームや宣伝のインプレッションログを分析することで、より効果的な宣伝の配信に活用できます。
Amazon EMR では、膨大な量のゲノミクスデータや、その他の大量の科学データセットをすばやく効率的に処理することもできます。研究者は AWS で無料でホストされているゲノミクスデータにアクセスできます。
Amazon EMR はウェブやモバイルアプリケーションで生成されたログの処理にも使用できます。Amazon EMR は、ペタバイト級の非構造化データや半構造化データからアプリケーションやユーザーに関する有益な洞察を得るのに役立ちます。
サンプルクラスターを起動してみましょう。ここをクリックして入門ガイドのチュートリアルをご覧ください。チュートリアルでは、サンプルテキストファイルの単語の頻度をカウントするクラスターを作成します。数分でクラスターが稼働します。