Amazon Elastic MapReduce (Amazon EMR) – это веб-сервис, позволяющий быстро и недорого обрабатывать большие объемы данных.

Amazon EMR упрощает обработку больших данных благодаря использованию управляемой инфраструктуры Hadoop, которая просто, быстро и недорого обеспечивает распределение больших объемов данных для их обработки динамически масштабируемыми инстансами Amazon EC2. В Amazon EMR можно также запускать другие широко распространенные распределенные инфраструктуры, например Apache Spark и Presto, и работать с данными, находящимися в других хранилищах данных AWS, таких как Amazon S3 и Amazon DynamoDB.

Amazon EMR безопасно и надежно выполняет обработку больших данных, в том числе анализ логов, веб-индексацию, хранение данных, функции машинного обучения, финансовый анализ, научное моделирование и задачи биоинформатики.

Знакомство с Amazon EMR (3:06)

thumb-S6Ja55n-o0M-3

Щелкните, чтобы увеличить

График релизов Amazon EMR

График релизов Amazon EMR

Управление версиями релизов Amazon EMR позволяет легко выбирать и использовать новейшие проекты с открытым исходным кодом в кластере EMR, включая приложения в инфраструктурах Apache Hadoop и Spark.  Программное обеспечение устанавливается и настраивается сервисом Amazon EMR, а вы тратите меньше времени на задачи администрирования и концентрируетесь на повышении ценности данных.


Простота использования

Для запуска кластера Amazon EMR потребуется несколько минут. Не нужно заниматься выделением узлов, настройкой или оптимизацией кластера, а также конфигурацией Hadoop. Об этом позаботится Amazon EMR, а вы можете сконцентрироваться на аналитических задачах.

Низкая стоимость

Ценообразование Amazon EMR просто и предсказуемо – почасовая оплата за каждый используемый инстанс. Запустить кластер Hadoop, содержащий 10 узлов, можно всего за 0,15 USD в час. Благодаря встроенной поддержке спотовых и зарезервированных инстансов EC2 Amazon EMR поможет сэкономить 50–80 % от стоимости используемых им инстансов.

Эластичность

Amazon EMR позволяет выделить от одного до сотен или тысяч вычислительных инстансов для обработки данных любого масштаба и с легкостью увеличивать или сокращать число инстансов, оплачивая только используемые ресурсы.

Надежность

Вы можете сэкономить время, которое потратили бы на настройку и мониторинг кластера. Amazon EMR осуществляет настройку Hadoop для облака, а также мониторинг вашего кластера, повторно запуская задания, выполнить которые не удалось, и автоматически заменяя неисправные инстансы.

Безопасность

Amazon EMR автоматически настраивает брандмауэр Amazon EC2, управляющий сетевым доступом к инстансам, и вы можете запускать кластеры в Amazon Virtual Private Cloud (VPC), созданной вами логически изолированной сети. Для объектов, которые хранятся в среде Amazon S3, можно использовать серверное или клиентское шифрование Amazon S3 на базе EMRFS со службой управления ключами AWS или собственными ключами.

Безопасность

Вы полностью контролируете свои кластеры. У вас есть доступ с правами root к каждому инстансу, и вы можете с легкостью установить дополнительные приложения и настроить кластеры по своему усмотрению. Amazon EMR также поддерживает множество дистрибутивов и приложений Hadoop.

Amazon EMR можно использовать для анализа данных навигации, чтобы сегментировать аудиторию и определить предпочтения пользователей. Анализ навигации и логи впечатлений от рекламы можно также использовать для более эффективного распространения рекламных материалов.

Подробнее о том, как компания Razorfish использует EMR для анализа навигации »

Amazon EMR можно использовать для быстрой и эффективной обработки больших объемов данных генома и других больших наборов научных данных. Исследователям предоставляется бесплатный доступ к данным генома, хранящимся в AWS.

Читать о проекте «1000 геномов» и AWS »

Amazon EMR можно использовать для обработки лог-файлов, генерируемых веб- и мобильными приложениями. Amazon EMR позволяет клиентам работать с петабайтами неструктурированных или слабоструктурированных данных, чтобы получить полезную информацию об их приложениях или пользователях.

Подробнее о том, как Yelp использует EMR для управления ключевыми возможностями веб-сайта »

Вы готовы запустить свой первый кластер? Нажмите здесь для просмотра руководства. С его помощью вы создадите кластер, подсчитывающий частоту употребления слов в текстовом файле. Всего через несколько минут ваш кластер будет создан и начнет работу.