Amazon Web Services ブログ

re:Invent 2018に向けて 2018年11月後半アップデートのまとめ 第二弾

みなさん、こんにちは。アマゾン ウェブ サービス ジャパン、プロダクトマーケティング エバンジェリストの亀田です。 サンフランシスコの空港に到着し、ラスベガス行きの飛行機を待っています。ラスベガスでは空港でre:Invent2018へのチェックインができるようになっています。会場でもできますので、ご無理なさらず皆さんのご都合の良い場所でチェックインをしてくださいね。 さて、第一弾に続き、2018年11月後半アップデートのまとめをお届けします。 Amazon SageMaker が Object2Vec と IP Insight の組み込みアルゴリズムをサポートするようになりました。 Object2Vecは、類似の単語、フレーズ、および文章があるアプリケーションで使用される教師付き学習アルゴリズムです。例えば、文書分類システムの構築、ユーザーの格付けが紐づく映画推薦システムなどで使われます。 IP Insightsは、リクエストのIPアドレスを分析して不審なオンライン動作を識別する新しい教師なし学習アルゴリズムです。アルゴリズムは統計モデリングとニューラルネットワークを使用して、例えば、銀行のアカウントへのユーザーのアクセス履歴からIPv4アドレスを識別し攻撃の検知等に用いられます。 AWS CodePipeline の実行速度が向上し、かつステージごとにより多くのパイプラインアクションをサポートしました。 パイプラインアクション間の遷移時間を短縮し、パイプラインの実行時間が短縮され、ビルドとテストの結果がすぐに得られ、機能をより迅速に反復することができるようになりました。すべてのアクションタイプに対してステージあたりのアクションのデフォルト制限が最大20から50になりました。 AWS CloudTrail が AWS Organizations をサポートしました。 組織全体でAWS CloudTrailを1つのアカウントから作成、管理、展開することができるよになり、組織内の各メンバーアカウントに自動的に適用される統一イベントロギング戦略を定義できるようになりました。 Amazon EMR が Jupyter Notebook をベースとしたマネージド分析環境である、EMRノートブックをリリースしました。 EMRノートブックはSpark用に事前設定されており、Sparkのマジックカーネルをサポートしているため、PySpark、Spark SQL、Spark R、Scalaなどの言語で書かれたEMRクラスタ上でSparkジョブを対話的に実行することができます。これらのライブラリをインポートしてデータを操作し、豊富なグラフィカルなプロットで計算結果を視覚化することを可能にするCondaのオープンソースライブラリがノートブックに付属しています。さらに、各ノートブックにはSparkの監視機能が組み込まれており、ジョブの進行状況を監視し、ノートブックから直接コードをデバッグすることができます。 Amazon Connect が コンタクトフローの設定に、Loop (ループ)ブロックをサポートしました。 ループブロックを使用すると、コンタクトフローのセグメントを繰り返すことができ、例えば、クレジットカード、口座番号、社会保障番号などの難しい入力を、顧客が簡単に入力できるようになります。また、悪天候のために会社が閉鎖されていることを知らせる際など、指定した回数だけ電話をかける処理ができるようになります。 Amazon Transcribe が リアルタイムの文字書き起こし(トランスクリプション)に対応しました。 ライブ・オーディオ・ストリームからテキスト・トランスクリプトをリアルタイムで受信できる機能が加わり、リアルタイムトランスクリプションが可能となりました。 AWS Lambda が Python 3.7 […]

Read More

re:Invent 2018に向けて 2018年11月後半アップデートのまとめ 第一弾

みなさん、こんにちわ。アマゾン ウェブ サービス ジャパン、プロダクトマーケティング エバンジェリストの亀田です。 いよいよ明後日からre:Invent2018が米国ラスベガスで開催されます。毎年re:Inventの開催に先立ち多くの機能リリースが行われます。今年は例年以上のボリュームで多くの機能リリースが11月後半に発表されました。量が多くまとめるのが大変というお声をいただき、以下にその内容を纏めたいと思います。 Cloud Frontが10周年を迎え6つのエッジロケーションが新たにオープンしました。 シカゴ、ニューアーク、アシュバーン、ミュンヘン、東京、リオデジャネイロ。世界65都市、29カ国、150拠点となりました。 CloudFrontがオリジンのフェイルオーバー機能をサポートしました。 プライマリオリジンが利用できないことをCloudFrontが検出した場合に、セカンダリオリジンからコンテンツが提供されるようにプライマリとセカンダリの2つのディストリビューションを設定できるようになり、サービスの継続性が向上します。 CloudFrontがWebSocketをサポートしました。 デフォルトで有効となり、設定変更は不要です。そして追加料金も発生しません。 Amazon Neptune がHTTPSの暗号化通信に対応しました。 Transport Layer Security(TLS)1.2プロトコルを介してNeptuneのGremlinサーバーとSPARQL 1.1プロトコルRESTエンドポイントに接続できるようになりました。SSL用証明書は自動で設定され管理の必要はありません。 Amazon SageMakerがAmazon CloudWatchと連携しトレーニングジョブの監視、視覚化に対応しました。 ClouldWatchコンソールでメトリックを視覚化し、SageMaker APIとCloudWatch APIの両方を使用してメトリックを照会することができます。組み込みアルゴリズムとカスタムアルゴリズムの両方でサポートされました。 Amazon SageMaker が Apache Airflowに対応しました。 Apache Airflowは、クラウドやオンプレミスに導入できるワークフローをプログラムで作成、スケジュール、および監視するためのオープンソースのプラットフォームであり、モデルトレーニング、ハイパーパラメータチューニング、モデル展開、バッチ変換などの管理でご利用いただけます。 Amazon SageMakerがTensorflow 及び Chainer のサポートで機能拡張されました。 TensorFlowおよびChainerスクリプトの実行が容易になり、高性能アルゴリズムのライブラリ、自動モデルチューニング、ワンクリック展開、マネージドホスティングによる管理および分散トレーニングなどでご利用いただけます。 Amazon CloudWatch が Automatic Dashboard という機能をリリースしました。 自動ダッシュボードには、AWSサービス推奨のベストプラクティスがあらかじめ組み込まれており、リソースを認識したままで動的に更新され、重要なパフォーマンスメトリックの最新の状態が反映されます。すべてのAWSリソースの正常性とパフォーマンスの集計ビューを取得できるようになり、モニタリングを迅速に開始し、メトリックとアラームのアカウントとリソースベースのビューを調べ、ドリルダウンしてパフォーマンスの問題の根本原因を探ることができます。 AWS Batch が EC2 AMD インスタンスをサポートしました。 AMDベースのEC2インスタンスである R5a 及び […]

Read More

新しい AWS Resource Access Manager – クロスアカウントでのリソース共有

以前に説明したように、顧客はさまざまな理由で複数の AWS アカウントを使用しています。一部の顧客は、複数のアカウントを使用して管理および課金を切り分けています。爆発半径を設定して、間違いの影響をコントロールしている顧客もいます。 こうした分離はすべての顧客にとって実際にポジティブなものですが、特定のタイプの共有が有用で有益であることも判明しています。たとえば、多くの顧客は、管理のオーバーヘッドや運用コストを削減するために、リソースを一元的に作成してアカウント間で共有したいと考えています。 AWS Resource Access Manager 新しいAWS Resource Access Manager (RAM) は、AWS アカウント間でのリソース共有を容易にします。AWS 組織内でリソースを簡単に共有でき、コンソール、CLI、一連の API から使用できます。Route 53 Resolver ルールのサポートを開始 (昨日、Shaunの素晴らしい記事で発表) し、近いうちにさらに多くの種類のリソースを追加します。 リソースを共有するには、単にリソース共有を作成し、名前を付け、リソースを 1 つ以上追加し、他の AWS アカウントへのアクセス権を付与するだけです。それぞれのリソース共有はショッピングカートに似ており、異なる種類のリソースを保持できます。自分が所有しているリソースはすべて共有できますが、共有されているリソースを再共有することはできません。リソースは、組織、組織単位 (OU)、AWS アカウントで共有することができます。また、組織外のアカウントを特定のリソース共有に追加できるかどうかをコントロールすることもできます。 組織のマスターアカウントの共有を、RAM コンソールの [Settings] ページで有効にする必要があります。 その後、組織内の別のアカウントとリソースを共有すると、リソースはどちらの側でもさらなるアクションなしで利用可能になります (RAM は、アカウントが組織に追加されたときに行われたハンドシェイクを利用します)。組織外のアカウントでリソースを共有すると、そのアカウントでリソースを利用できるようにするために承認する必要がある招待が送信されます。 リソースがアカウント (消費アカウントと呼ぶ) と共有されると、共有リソースは消費アカウントが所有するリソースと共に適切なコンソールページに表示されます。同様に、Describe/List をコールすると、共有リソースと消費アカウントが所有するリソースの両方を返します。 リソース共有にタグを付け、IAM ポリシーでタグを参照してタグベースの権限システムを作成することができます。リソース共有から、いつでもアカウントやリソースを追加したり削除したりすることができます。 AWS Resource Access Manager の使用 RAM コンソールを開き、[Create a resource share] をクリックして開始します。 共有の名前 […]

Read More

Amazon Rekognition が、顔の検出、分析、認識機能の更新を発表

本日、当社は顔の検出、分析、認識機能の更新を発表いたします。これらの更新により、画像からより多くの顔を検出し、より正確な顔のマッチングを実行し、画像内の顔から年齢、性別、感情の属性を取得する能力が向上します。Amazon Rekognition の顧客は、本日より、追加コストなしでこれらの各機能拡張を使用できます。機械学習の経験は必要ありません。 「顔検出」は、「この画像には顔がありますか?」という質問に答えようとします。 現実世界の画像では、さまざまな側面が、高い精度で顔を検出するシステムの能力に影響を与える可能性があります。そうした側面としては、頭部の動きおよび/またはカメラの動きによるポーズの変化、前景または背景の物体 (前景にいる他の人の帽子、髪、手で覆われた顔など)によるオクルージョン、照明の変化 (低いコントラストや影など)、顔が白っぽくなる明るい照明、ノイズが多かったり不鮮明である顔につながる低品質と解像度、カメラやレンズ自体の歪みなどがあります。こうした問題は、未検出 (顔が検出されなかった) または誤検出 (画像領域に顔がないのに顔として検出される) として現れます。たとえば、ソーシャルメディアのさまざまなポーズでは、カメラのフィルター、照明、オクルージョン (「フォトボム」など) が一般的です。金融サービスの顧客の場合、多要素認証および不正防止ワークフローの一部としての顧客 ID の検証で、高解像度の自撮り (顔画像) を、写真 ID 文書 (パスポートや運転免許証など) のより低解像度で、小さく、しばしばぼやけた顔画像と照合させることが必要になります 。また、多くの顧客は、カメラが明るい光に向いている画像から低コントラストの顔を検出して認識しなければならなりません。 最新の更新により、Amazon Rekognition は前に説明した最も困難な条件にある画像で、以前は見逃されていた顔の 40% を検出できるようになりました。同時に、誤検出の割合は 50% 削減されています。つまり、ソーシャルメディアアプリなどの顧客は、高い確度で一貫して信頼できる検出 (未検出と誤検出が少ない) が可能になり、自動化されたプロフィール写真レビューなどのユースケースでより良い顧客経験を提供できます。さらに、顔認識は、大規模な顔のコレクションを検索する場合に、以前のモデルと比較して 30% より正確な「最良の」一致 (最も類似した顔) を返します。これにより、不正防止などのアプリケーションでより良い検索結果を得ることができます。顔照合では、さまざまな照明、ポーズ、外観でより一貫性のある類似性スコアを取得できるようになり、ID 照合などのアプリケーションでより高い信頼性のしきい値を使用して誤った一致を回避し、人間による確認を減らすことができます。いつものように、市民の自由や顧客の感情が関係するユースケースで照合の正確さが重要な場合、ベストプラクティス、より高い信頼水準 (少なくとも99%) を使用し、必ず人間による確認を含めることをお勧めします。 それでは、いくつかの画像を見て、Amazon Rekognition が制約のない環境でキャプチャされた難しい画像のさまざまな側面をどのように処理するかを確認しましょう。 ポーズのバリエーション この問題は、急なカメラアングル (顔の上または下から撮影されたショットなど)、顔を横から見たショット、被写体が遠ざかっている場合に発生します。この問題は、ソーシャルメディアの写真 (例えば、被写体が遠くを見ているときなど)、自撮り、ファッションの写真撮影でよく見られます。顔検出アルゴリズムは、多くの場合、顔の半分以下しか見えないか、顔が通常ではない確度で傾いている (逆さまになるなど) 場合に、顔を検出することが困難です。 画像 1: 横から見た顔 画像 2: 様々な角度でカメラを見下ろす顔 画像 3: […]

Read More

Oracle Database による AWS Database Migration Service と Accelario によるダウンタイムゼロの移行

これは Accelario の共同設立者で副社長の R&D の マイケル・リトナー (Michael Litner) のゲストポストです。 Accelario は、Amazon Web Services(AWS)に Oracle データベースを簡単かつ迅速にロードするためのデータベース移行ソフトウェアです。初期ロードの終了時に、AWS Database Migration Service (AWS DMS)を使用してデータベースの同期がすぐに開始されます。その結果、データベースのダウンタイム移行がゼロ になります。 データベースのクラウド移行時には、週7日24時間(無休)業務を必要とする事業は大問題に直面しています。これまでのところ、ダウンタイムを最小限に抑えるための経費効率の高いオプションはほとんどありませんでした。Accelario は、AWS DMS との最近の統合により、すぐに使用できるゼロダウンタイムのフルデータベース移行ソリューション、つまり、ユーザー、手順、ビューなどのデータベース全体が移行を提供します。プロセスが完了すると、データベースにアクセスしてアプリケーションで即座に使用することができます。 そのような事業に影響を及ぼすもう1つの重大問題は、機密情報がプロセスの一部として公開されないようにすることです。これは、データ保護ポリシーや規制の遵守にとって重要です。Amazon Relational Database Service (Amazon RDS)でサポートされている Oracle の組み込み機能(ネットワーク・データ暗号化を含む)を使用して、転送中のデータの暗号化を実現できます。 本投稿では、この組み合わせソリューションを使用してデータベースを Amazon EC2 または Amazon RDS(データマスキングも使用)に移行する方法について説明します。また、クラウドに入った後に簡単にデータベースをリフレッシュする方法についても説明します。 仕組みの説明 Accelario は論理的な移行を実行します。それはソースデータベースを読み取り、その内容を解析して宛先にコピーします。エンジンはデータ自体がソースからデスティネーションに直接流れて、移行プロセスを調整します。Accelario は、データベース内のすべてのオブジェクトタイプ(表、索引、パッケージ、順序、許可、表スペースなど)を処理します。 この初期ロードの終了時に、Accelario は AWS 上の新しいターゲットとソース間の 進行中の変更 を複製するAWS DMS 環境を自動的に構築します。複製が同期された後、いつでもカットオーバを要求できます。 大規模なデータベースでこのソリューションを使用する場合のベストケース 大規模なデータベース移行で Accelario を使用する一般的なシナリオを次に示します。 […]

Read More

Amazon SageMakerの新機能: ワークフロー、アルゴリズム、認定

過去12ヵ月間、MLを何万人もの開発者やデータ科学者の手に渡して、完全に管理されたサービスである、Amazon SageMaker を利用しているお客様が – 詐欺の発見、予測、エンジンのチューニングで machine learning に大進歩を遂げたのを見て参りました。昨年 re:Invent に SageMakerを導入して以来、その大半は顧客のフィードバックに基づいた、ほぼ100の新機能を追加しました。Amazon SageMakerの主な新機能の発表で、今日も同じドラムビートを継続しています。 SageMakerワークフローの紹介 今日では、machine learning のワークフローの構築、管理、共有を容易にするために、Amazon SageMakerの新しい自動化、統合化、それにコラボレーション機能を発表しています。 Machine learning は高度なコラボレーションプロセスです。ドメイン経験と技術スキルを組み合わせることは成功の基盤であり、さまざまなデータセットや機能を用いた複数の反復と実験が必要になることがよくあります。開発者が進捗状況を共有し、多くの共同作業者からフィードバックを収集する必要が頻繁にあります。成功モデルの訓練は、必ずしもホールインワンとはなるとは限らないので、重要な決定を追跡し、成功した部品を再生し、成功したものを再利用し、成功しなかったものに関する助けを得ることが重要になります。これらの反復の管理、繰り返し、共有を簡単にする新機能を導入しています。 SageMaker Search による実験管理 成功したMLモデルの開発には、継続的な実験、新しいアルゴリズムの試行、ハイパーパラメータのモデル化が必要です。その間には、潜在的に小さな変更が性能と正確さに及ぼす影響を観察しなければなりません。この反復運動は、データセット、アルゴリズム、パラメータのユニークな組み合わせで「勝利」モデルの醸成の追跡が難しいことを意味します。 データ科学者および開発者は、Amazon SageMaker Searchを使用して、machine learning モデルトレーニングの実験を整理、追跡、評価することができます。SageMaker Searchを使用すると、AWSコンソールから数千もの Amazon SageMaker モデルトレーニング実行の中から、最も関連性の高いモデルトレーニングの実行を即座に発見し評価することができます。 バージョン管理によるコラボレーション データ科学者、開発者、データエンジニア、アナリスト、ビジネスリーダーは、しばしばアイデアやタスクを共有し、協力してmachine learning を推進する必要があります。従来のソフトウェア開発とのこの種のコラボレーションの事実上の標準は、バージョン管理です。それはMLでも重要な役割を果たしており、Git の統合と視覚化をAmazon SageMaker に追加することで、簡単に作成しています。 顧客は、GitHub、AWS CodeCommit、または Git リポジトリとSageMaker ノートブックのリンク、公私のリポジトリの複製、IAM、LDAP、AWS Secrets Manager を用いた Amazon SageMaker でのリポジトリ情報の安全な保存を可能にしています。新しいオープンソースのノートブックアプリの使用で、SageMaker でのブランチ、マージ、バージョンを直接確認できます。 ステップ関数とApache Airflow によるオートメーション […]

Read More

Amazon Redshiftのクラスターを数分で上下に拡張することで、必要なときに必要なパフォーマンスを得ることができます

Amazon Redshiftは、TuroやYelpなど急速に成長するテクノロジー企業から、21st Century Fox、Johnson&JohnsonなどのFortune 500企業まで、あらゆる規模の組織にとって最適なクラウドデータウェアハウスです。これらの顧客は、ユースケース、データサイズ、アナリストの集団をすばやく拡大することで、スケーラブルなデータウェアハウスにとって非常に重要なニーズがあります。 Amazon Redshiftを発売して以来、私たちの顧客は私たちとともに成長してきました。彼らと密接に協力して、データのスケールに応じてニーズがどのように変化するかを学びました。データ分析では、次のようなシナリオが頻繁に発生します。 米国に拠点を置く小売企業は、多数のスケジューリングされたクエリと複雑なBIレポートを実行しています。彼らのAmazon Redshiftの使用状況は、データ科学者とアナリストの作業負荷が高い、午前8時から午後6時にピークに達します。夜間には、データを照会して小規模のレポートを作成するユーザーも少数います。その結果、日中と同じクラスター容量は夜間には必要ありません。 医療コンサルティング会社は、サービスとしてのデータ(DaaS)ビジネスを急速に拡大しています。彼らは、迅速に複製環境を作成し、クライアントにクラスターエンドポイントを提供したいと考えています。複製クラスターを作成した後は、クライアントのコストとパフォーマンスの要件に基づいて、適切なサイズにすばやく変更する必要があります。 IoTサービスプロバイダーは急速な成長軌道に乗っています。大規模なイベントが発生するたびに、そのセンサーはAmazon Redshiftに取り込まれ、その後すぐに分析する必要のあるテラバイトの容量の新しいデータを送信します。 データベース管理者(DBAs)がこれらのシナリオに反応する機敏さを持たない場合、アナリストはミッションクリティカルなワークロードに対する応答時間が長くなります。または、データウェアハウスがサイズ変更のために停止している場合、それらは完全に締め出される可能性があります。DBAは、ビジネスステークホルダーとの間で設定したService Level Agreements(SLAs)をサポートすることができません。 Amazon Redshiftを使用すれば、すでに3つの方法ですばやく拡張できます。第1に、Amazon Redshift Spectrumを使用してAmazon S3データレイクのクエリデータをクラスターにロードせずに、その場所にあるデータを照会することができます。この柔軟性により、抽出、変換、ロード(ETL)ジョブを待つことなく、またはストレージ容量を追加することなく、増大するデータボリュームを分析することができます。第2に、数時間でノードを追加したり、ノードタイプを変更することで、Amazon Redshiftクラスターのサイズを変更することができます。この間は、アナリストはダウンタイムなしで読み取りクエリを実行し続けることができます。これにより、スケールアップに数日かかるオンプレミスのデータウェアハウスに比べて、俊敏性が向上します。第3に、スナップショットからデータをすばやくリストアすることで、複数のAmazon Redshiftクラスターをスピンアップできます。これにより、高い並行性をサポートするために必要なコンピューティングリソースを追加できます。 調整可能なリサイズの導入 Amazon Redshiftクラスターのノードを数分で追加または削除できる新機能、調整可能なリサイズを導入することに興奮しています。これにより、要求の厳しいワークロードに対して、より優れたパフォーマンスとストレージを実現するための機敏性がさらに高まり、需要が低い期間にコストを削減できます。AWS マネジメントコンソールから手動で、または簡単なAPIコールを使用してプログラムでリサイズできます。 調整可能なリサイズを使用すると、次の図に示すように、必要に応じて小規模から始めてオンデマンドでスケールアップすることができます。 リリース前に調整可能なリサイズをプレビューしていたAmazon Redshiftの顧客は、スケーラビリティによって即座に利益を得ることができました。ここで、顧客の一部が調整可能なリサイズについて伝えなければならないことがあります:   Amazon Prime Videoは高度なデータ分析を使用して視聴のお薦め内容をカスタマイズし、ファンの視聴経験を測定します。「Redshiftの新しい調整可能なリサイズ機能により、作業時間のリサイジング時間が6時間から15分に短縮され、ワークロードのさまざまな性質に応じてインフラを動的に拡張し、コストを最適化しパフォーマンスを最大限に高めました。」 Amazon Prime VideoのデータエンジニアであるSergio Diaz Bautista氏     Yelpは、Amazon Redshiftを使用して、モバイルアプリの利用データと、顧客コホート、オークション、広告指標に関する広告データを分析します。「Yelpは、データ分析を使用してビジネス上の意思決定を行い、ユーザーのエクスペリエンスを向上させる最前線に位置しています。調整可能なリサイズを使用することで、需要が通常の変動性ウィンドウを超えて増加し、オフピーク時にスケールダウンするときにクラスターをスケールアップするように設定することで、最良のパフォーマンスを確実に最適化し、コストを低く抑えることができます。数百テラバイトのデータを数分で格納するデータウェアハウスの拡張能力は素晴らしいです」とYelp.comのデータアーキテクトShahid Chohan氏は言います。   「Coupangは、電話を使った世界のショップのあり方を混乱させている。進歩するビジネスニーズや予期せず必要とされる特別な分析のために、分析需要を常に予測できるとは限りません。調整可能なリサイズにより、コンピューティングとストレージを迅速に拡張し、大規模なETLジョブをより速く完了させ、データを照会するユーザーの数を増やすことができます」と、Coupangのデータエンジニアリング担当上級マネージャー、Hara Ketha氏は述べています。   OLXはAmazon Redshiftを使用してパーソナライズと関連性を強化し、レポートを実行し、実行可能な顧客の洞察を生成します。「OLXでは、世界中の何百万という人々が毎日お互いに売買しています。Redshiftは、高度な分析とOLXの大きなデータ革新の中核となっています。データニーズがますます増大するにつれ、調整可能なリサイズを使ってノードを追加することができます。コストを節約するために、活動が少ない期間にサイズダウンすることも簡単です。Redshiftありがとう!」と、OLX.comの欧州データチームのデータアーキテクト、Michał Adamkiewicz氏は述べています 調整可能なリサイズの仕組み 調整可能なリサイズは、Amazon Redshiftで利用可能な従来のリサイズ操作とは根本的に異なります。新しいクラスターを作成し、それにデータを転送する古典的なリサイズとは異なり、調整可能なリサイズは既存のクラスター内のノードの数を変更します。これにより、進行中の読み取りまたは書き込み照会の中断を最小限に抑えながら、追加のノードを数分で展開できます。したがって、コストを節約するためにジョブが完了したら、クラスターをすばやくサイズアップしてパフォーマンスを向上させ、サイズを小さくすることができます。 ノードのタイプを変更する場合(たとえば、DC1ノードからDC2ノードにアップグレードする場合など)、古典的なリサイズを引き続き使用できます。次のステージでは、調整可能なリサイズをトリガーするときに何が起こるのかを説明します。 ステージ1:クラスターが完全に利用できる状態でのリサイズの準備 […]

Read More

Amazon Lex で会話型ビジネスインテリジェンスボットを構築する

会話型インターフェースの登場で、ソフトウェアアプリケーションやサービスとのやり取りの方法が激変しています。インターフェースをより自然なやり取りの仕方、つまり会話に置き換えることで、キーボードやスマートフォンを使っての意思表示方法から人々を開放したのです。質問に対する回答が必要な時、リマインダーを設定する時、あるいは製品やサービスを調達したい時に、ボットとの対話を利用する人々がますます増えています。 Amazon Lex では、これと同じレベルの利便性をデータにもたらすことが可能です。一連の質問を尋ね、会話コンテキストを維持し、ユーザーがデータセットを検索できるようにすることで、全く新しいエクスペリエンスとデータとの関係が実現しました。 このブログ記事では Amazon Lex を使用して、ビジネスインテリジェンス (BI) チャットボットを実装する方法を紹介します。このチャットボットを「BIBot」と呼んでいますが、別の名前を使うようカスタマイズできます。BIBot は、質問をバックエンドデータベースクエリに変換し、さらに結果セットを自然言語応答に変換することによって、データベース内のデータに関するユーザーの質問に答えることができます。例えば、「先月の在庫の増加を教えてください」というリクエストは、「month(received_date) = 10 の在庫から sum(item_qty) を選択する」に変換します。 BIBot は、ビジネスインテリジェンスとレポートアプリケーション向けの一般的なリレーショナルデータベースと統合されています。サンプルデータベースは Amazon Redshift TICKIT データベースです。これは、ユーザーが音楽コンサートや劇場でのショーのチケットをオンラインで購入したり販売できる架空のウェブサイトでの売り上げを追跡するものです。データベースは、2 つのファクトテーブル (販売、リスト) と 5 つのディメンションテーブル (イベント、日付、会場、カテゴリ、ユーザー) を持つスタースキーマです。詳細については、「Amazon Redshift」 » 「サンプルデータベース」を参照してください。 BIBot とのやりとりの例をいくつか紹介します。 これらの例から分かるように、BIBot は 6 月にヒューストンについて聞いたことと、何枚のチケットが売れたか聞いたことを覚えており、そのため、質問のコンテキストを把握することができます。会話は、データの「言葉」を利用します。つまりこの場合、チケット販売、都市、月、イベントなどです。これらは、サンプルチケット販売データベースのファクトとディメンションです。レポートデータベースを使用するように BIBot を調整すると、ボットとの会話はデータの言葉で行われます。 アーキテクチャ BIBot のアーキテクチャはシンプルです。Amazon Lex ボットは、ユーザーの各質問をインテントに送り、質問をスロットでパースします。次に、Amazon Lex ボットはインテントとスロットのデータを AWS Lambda 関数に渡します。この関数はデータを使用して、SQL クエリを構築し、Amazon Athena データベースに対して実行します。Athena は、Amazon S3 […]

Read More

Amazon SageMaker と Amazon Redshift を利用した、高速・柔軟・セキュアな機械学習基盤の構築

データウェアハウス環境として、 Amazon Redshift に販売データ・ログデータ・センシングデータ等を蓄積し、これらのデータを用いて機械学習の活用を検討されるケースは多いと思います。高速にクエリを実行できる Redshift と、Amazon SageMaker による Jupyter Notebook を用いた対話的なデータ分析と機械学習を活用し、需要予測・レコメンド・異常検知などを行うことが可能です。 本稿では、 Redshift から Amazon VPC 内でセキュアにデータを取得し、SageMaker を利用した分析・機械学習パイプラインを構築する方法をご紹介します。前半では、アーキテクチャの概要を説明します。後半では、そのアーキテクチャのサンプルを構築し 、SageMaker から SQL クエリを実行して、データを分析する方法について説明します。環境を簡単に構築できるよう、 AWS CloudFormation のテンプレートを用意しているので、実際に試しながら読み進めることができます。SageMaker や Redshift の概要については末尾に記載した参考記事をご覧下さい。 アーキテクチャ概要 大規模データに対し、高速・柔軟・セキュアにデータ分析を行うための、Redshift と SageMaker を組み合わせたアーキテクチャを以下に示します。     AWS を利用した分析・機械学習パイプラインとしては様々なアーキテクチャが考えられますが、ここでは Redshift に対して SageMaker の Jupyter Notebook 上から SQL クエリを実行し、必要なデータのみを取得して分析・可視化・機械学習を行うことを想定します。Redshift のサンプルデータが Amazon S3 にあるため事前にそれを読み込んでいます。 それでは、具体的にアーキテクチャの詳細を確認していきましょう。 速度と分析の柔軟さの両立 データの分析・可視化・機械学習を行う場合、ブラウザ上で動作する対話型データ分析ツールである Jupyter Notebook […]

Read More

AWS Application Auto Scaling を使用した Amazon Kinesis Data Streams のスケーリング

先日、AWS は AWS Application Auto Scaling の新機能を発表しました。Amazon Kinesis Data Stream に対してシャードを自動的に追加・削除するスケーリングポリシーを定義できる機能です。この機能の詳細については、Application Auto Scaling の GitHub リポジトリを参照してください。 ストリーミングの情報が増えると、あらゆるリクエストに対応するスケーリングソリューションが必要になります。逆にストリーミング情報が減る場合も、スケーリングを利用してコストを抑えなければなりません。現在、Amazon Kinesis Data Stream のシャードはプログラム的にスケーリングされています。あるいは、Amazon Kinesis のスケーリングユーティリティを使用することも可能です。その場合は、ユーティリティを手動で使用する方法と、AWS Elastic Beanstalk 環境で自動化する方法があります。 Application Auto Scaling の新機能を使うと、AWS を使用してスケーリングソリューションを作成することができ、人手の介入も複雑なソリューションも必要ありません。 Auto Scaling ソリューションの概要 今回のブログ記事でご紹介するのは、デフォルトの Amazon CloudWatch メトリクスに基づいて Amazon Kinesis Data Streams に Auto Scaling ソリューションをデプロイする方法です。環境を自動的に設定する AWS CloudFormation テンプレートと、Lambda 関数に関連するコードについても触れます。 Auto Scaling ソリューションのしくみ 始まりは、Kinesis Data […]

Read More