Amazon Elastic MapReduce (Amazon EMR) – это веб-сервис, позволяющий быстро и недорого обрабатывать большие объемы данных.
Amazon EMR упрощает обработку больших данных благодаря использованию управляемой инфраструктуры Hadoop, которая просто, быстро и недорого обеспечивает распределение больших объемов данных для их обработки динамически масштабируемыми инстансами Amazon EC2. В Amazon EMR можно также запускать другие широко распространенные распределенные инфраструктуры, например Apache Spark и Presto, и работать с данными, находящимися в других хранилищах данных AWS, таких как Amazon S3 и Amazon DynamoDB.
Amazon EMR безопасно и надежно выполняет обработку больших данных, в том числе анализ логов, веб-индексацию, хранение данных, функции машинного обучения, финансовый анализ, научное моделирование и задачи биоинформатики.
Anomaly Detection Using PySpark, Hive, and Hue on Amazon EMR
Optimize Spark-Streaming to Efficiently Process Amazon Kinesis Streams
Submitting User Applications with spark-submit
Turning Amazon EMR into a Massive Amazon S3 Processing Engine with Campanile
Running an External Zeppelin Instance using S3 Backed Notebooks with Spark on Amazon EMR
Управление версиями релизов Amazon EMR позволяет легко выбирать и использовать новейшие проекты с открытым исходным кодом в кластере EMR, включая приложения в инфраструктурах Apache Hadoop и Spark. Программное обеспечение устанавливается и настраивается сервисом Amazon EMR, а вы тратите меньше времени на задачи администрирования и концентрируетесь на повышении ценности данных.
Для запуска кластера Amazon EMR потребуется несколько минут. Не нужно заниматься выделением узлов, настройкой или оптимизацией кластера, а также конфигурацией Hadoop. Об этом позаботится Amazon EMR, а вы можете сконцентрироваться на аналитических задачах.
Ценообразование Amazon EMR просто и предсказуемо – почасовая оплата за каждый используемый инстанс. Запустить кластер Hadoop, содержащий 10 узлов, можно всего за 0,15 USD в час. Благодаря встроенной поддержке спотовых и зарезервированных инстансов EC2 Amazon EMR поможет сэкономить 50–80 % от стоимости используемых им инстансов.
Amazon EMR позволяет выделить от одного до сотен или тысяч вычислительных инстансов для обработки данных любого масштаба и с легкостью увеличивать или сокращать число инстансов, оплачивая только используемые ресурсы.
Amazon EMR автоматически настраивает брандмауэр Amazon EC2, управляющий сетевым доступом к инстансам, и вы можете запускать кластеры в Amazon Virtual Private Cloud (VPC), созданной вами логически изолированной сети. Для объектов, которые хранятся в среде Amazon S3, можно использовать серверное или клиентское шифрование Amazon S3 на базе EMRFS со службой управления ключами AWS или собственными ключами.
Amazon EMR можно использовать для анализа данных навигации, чтобы сегментировать аудиторию и определить предпочтения пользователей. Анализ навигации и логи впечатлений от рекламы можно также использовать для более эффективного распространения рекламных материалов.
Подробнее о том, как компания Razorfish использует EMR для анализа навигации »
Amazon EMR можно использовать для быстрой и эффективной обработки больших объемов данных генома и других больших наборов научных данных. Исследователям предоставляется бесплатный доступ к данным генома, хранящимся в AWS.
Amazon EMR можно использовать для обработки лог-файлов, генерируемых веб- и мобильными приложениями. Amazon EMR позволяет клиентам работать с петабайтами неструктурированных или слабоструктурированных данных, чтобы получить полезную информацию об их приложениях или пользователях.
Подробнее о том, как Yelp использует EMR для управления ключевыми возможностями веб-сайта »
Вы готовы запустить свой первый кластер? Нажмите здесь для просмотра руководства. С его помощью вы создадите кластер, подсчитывающий частоту употребления слов в текстовом файле. Всего через несколько минут ваш кластер будет создан и начнет работу.