統合型マネージド サービス
Cloud Dataflow は ETL、バッチ処理、継続的な計算処理などの幅広いデータ処理方法を開発、実行するための統合型プログラミング モデルのマネージド サービスです。 リソース管理やパフォーマンス最適化などの作業をデベロッパーが行う必要がなくなります。
フルマネージド
マネージド サービスによって、リソースのライフタイム管理が透過的に行われ、リソースの動的なプロビジョニングが提供されるため、レイテンシを最小限に抑えつつ、リソースの利用効率を高いレベルに維持できます。Dataflow のリソースはオンデマンドで割り当てられるため、ほぼ無制限にリソースを使用してビッグデータの処理の問題解決に取り組むことができます。
統合型プログラミング モデル
Apache Beam SDK で提供されるプログラミングの基本モデル(たとえば、高度なウィンドウ処理や検証コントロールなど)は、バッチおよびストリーム ベースのどちらのデータソースにも適用できます。デベロッパーがデータソースにとらわれることなくコンピューティング要件を指定できるため、バッチ処理とストリーム処理でプログラミング モデルを切り替えるコストを効果的に削減できます。
統合されたオープンソース
Google Compute Engine などのサービスをベースにして構築された Dataflow は、Cloud Storage、Cloud Pub/Sub、Cloud Datastore、Cloud Bigtable、BigQuery とシームレスに統合できる、運用しやすいコンピューティング環境を実現します。デベロッパーは Java および Python で提供される Apache Beam SDK を使用してカスタム拡張を実装し、別の実行エンジンを選択できます。
パートナーとの統合
Google Cloud Platform のパートナーおよびサードパーティのデベロッパーが Dataflow との統合機能を開発しており、さまざまな規模での高性能なデータ処理の実装が迅速かつ容易に行えるようになっています。 これらの統合は、Dataflow が提供するオープン API を使用して実装されます。
ClearStory
Cloudera
DataArtisans
Sales Force
SpringML
tamr
Cloud Dataflow の特長
大規模なデータ処理も確実に実行
- リソース管理
- Cloud Dataflow では、必要な処理リソースが完全に自動管理化されるため、インスタンスを手動で起動する必要がなくなります。
- オンデマンド
- すべてのリソースはオンデマンドで提供されるため、ビジネスニーズに合わせた拡張が可能になります。予約済みの Compute インスタンスを購入する必要はありません。
- インテリジェントな作業スケジュール
- 作業配分の自動化と最適化により、遅れている作業の優先順位を動的に調整できます。もう最新状況を追跡したり、入力データを事前に処理したりする必要はありません。
- 自動スケーリング
- ワーカー リソースの自動スケーリング機能により最適なスループット要件が満たされ、処理性能に対するコスト パフォーマンスが全体的に向上します。
- 統合型プログラミング モデル
- Dataflow API を使って MapReduce のような命令、高度なデータ ウィンドウ処理、データソースを問わないきめ細かな検証コントロールを記述できます。
- オープンソース
- Dataflow のプログラミング モデルを拡張したい場合、デベロッパーは Apache Beam SDK でプルリクエストをフォークまたは送信できます。Dataflow パイプラインは、Spark や Flink などの代替ランタイム上でも実行できます。
- 監視
- Cloud Dataflow は Google Cloud Platform コンソールに統合されているため、パイプラインのスループットや遅延などの統計情報に加え、ワーカーのログ検査の集計をほぼリアルタイムで提供することが可能です。
- 統合
- Cloud Storage、Cloud Pub/Sub、Cloud Datastore、Cloud Bigtable、BigQuery と統合してシームレスなデータ処理を実現します。Apache Kafka や HDFS のような他のソースやシンクとやりとりするように拡張することもできます。
- 信頼性の高い一貫した処理
- Cloud Dataflow には、データサイズ、クラスタサイズ、処理パターン、パイプラインの複雑さを問わない、一貫性のある高精度のフォールト トレラント機能が組み込まれています。
「Wix.com の時系列分析プラットフォームの要件には、スケーラビリティ、低レイテンシのデータ処理、フォールト トレラントなコンピューティングを備えた Google Cloud Dataflow のストリーミング処理がまさにぴったりでした。多岐にわたるデータ収集変換やグループ化オペレーションにより、複雑なストリーム データ処理アルゴリズムも実装することができます。」
- Gregory Bondar 氏 Ph.D.、データサービス プラットフォーム担当部長 Wix.com
Dataflow の料金の概要
Cloud Dataflow ジョブは、少なくとも 1 つの Cloud Dataflow バッチまたはストリーミング ワーカーの使用に基づき、分単位で課金されます。Dataflow ジョブは Cloud Storage、Cloud Pubsub などの追加の GCP リソースを消費し、それぞれ固有の料金で課金されます。詳しい料金情報については、料金ガイドをご覧ください。
| Dataflow ワーカータイプ | vCPU ドル/時間 |
メモリ ドル GB/時間 |
ローカル ストレージ(永続ディスク) ドル GB/時間 |
ローカル ストレージ(SSD) ドル GB/時間 |
|---|---|---|---|---|
| バッチ 1 | ||||
| ストリーミング 2 |