Amazon EMR

Amazon Elastic MapReduce (Amazon EMR) – это веб-сервис, позволяющий быстро и недорого обрабатывать большие объемы данных.

Amazon EMR упрощает обработку больших данных благодаря использованию управляемой инфраструктуры Hadoop, которая просто, быстро и недорого обеспечивает распределение больших объемов данных для их обработки динамически масштабируемыми инстансами Amazon EC2. В Amazon EMR можно также запускать другие широко распространенные распределенные инфраструктуры, например Apache Spark и Presto, и работать с данными, находящимися в других хранилищах данных AWS, таких как Amazon S3 и Amazon DynamoDB.

Amazon EMR безопасно и надежно выполняет обработку больших данных, в том числе анализ логов, веб-индексацию, хранение данных, функции машинного обучения, финансовый анализ, научное моделирование и задачи биоинформатики.

Знакомство с Amazon EMR (3:06)

Начните работу с Amazon EMR

Создать бесплатный аккаунт

Есть вопросы? Задайте их нам!

Amazon EMR в блоге AWS Big Data Blog

Anomaly Detection Using PySpark, Hive, and Hue on Amazon EMR

Optimize Spark-Streaming to Efficiently Process Amazon Kinesis Streams

Submitting User Applications with spark-submit

Turning Amazon EMR into a Massive Amazon S3 Processing Engine with Campanile

Running an External Zeppelin Instance using S3 Backed Notebooks with Spark on Amazon EMR

Что нового в Amazon EMR

Истории успеха наших клиентов

Компания Krux использует платформу AWS, чтобы справляться с требованиями по обработке данных. »

Компания CrowdStrike использует Amazon EMR и Spark для обработки сотен терабайтов данных событий и выявления вредоносной активности. »

Компания GumGum использует Spark в Amazon EMR для прогнозного учета ресурсов, обработки журналов истории посещений и быстрого анализа неструктурированных данных в Amazon S3. »

Компания Kik использует Amazon EMR и скрипты Hadoop Pig для обработки больших объемов данных файлов журналов перед их загрузкой в Amazon Redshift. »

Совокупная экономия Yelp на покупке и обслуживании оборудования составила 55 000 USD. »

Expedia обрабатывает данные истории посещений всемирной сети сайтов. »

В Агентстве по регулированию деятельности финансовых институтов на основе сервиса Amazon EMR создана гибкая платформа, способная адаптироваться под динамику рынка. »

Ежемесячно DataXu анализирует с помощью AWS 30 триллионов рекламных объявлений »

SnowPlow »

Channel 4 выполняет анализ использования сервиса «видео по запросу». »

Swipely создает аналитические отчеты о миллионах транзакций, выполненных с использованием кредитных карт. »

Команда аналитиков использует Amazon EMR и Hadoop для сбора и обработки данных. »

Приложения с открытым исходным кодом в Amazon EMR

Щелкните, чтобы увеличить — **График релизов Amazon EMR**

Управление версиями релизов Amazon EMR позволяет легко выбирать и использовать новейшие проекты с открытым исходным кодом в кластере EMR, включая приложения в инфраструктурах Apache Hadoop и Spark. Программное обеспечение устанавливается и настраивается сервисом Amazon EMR, а вы тратите меньше времени на задачи администрирования и концентрируетесь на повышении ценности данных.

Возможности и преимущества

Простота использования

Для запуска кластера Amazon EMR потребуется несколько минут. Не нужно заниматься выделением узлов, настройкой или оптимизацией кластера, а также конфигурацией Hadoop. Об этом позаботится Amazon EMR, а вы можете сконцентрироваться на аналитических задачах.

Низкая стоимость

Ценообразование Amazon EMR просто и предсказуемо – почасовая оплата за каждый используемый инстанс. Запустить кластер Hadoop, содержащий 10 узлов, можно всего за 0,15 USD в час. Благодаря встроенной поддержке спотовых и зарезервированных инстансов EC2 Amazon EMR поможет сэкономить 50–80 % от стоимости используемых им инстансов.

Эластичность

Amazon EMR позволяет выделить от одного до сотен или тысяч вычислительных инстансов для обработки данных любого масштаба и с легкостью увеличивать или сокращать число инстансов, оплачивая только используемые ресурсы.

Надежность

Вы можете сэкономить время, которое потратили бы на настройку и мониторинг кластера. Amazon EMR осуществляет настройку Hadoop для облака, а также мониторинг вашего кластера, повторно запуская задания, выполнить которые не удалось, и автоматически заменяя неисправные инстансы.

Безопасность

Amazon EMR автоматически настраивает брандмауэр Amazon EC2, управляющий сетевым доступом к инстансам, и вы можете запускать кластеры в Amazon Virtual Private Cloud (VPC), созданной вами логически изолированной сети. Для объектов, которые хранятся в среде Amazon S3, можно использовать серверное или клиентское шифрование Amazon S3 на базе EMRFS со службой управления ключами AWS или собственными ключами.

Гибкость

Вы полностью контролируете свои кластеры. У вас есть доступ с правами root к каждому инстансу, и вы можете с легкостью установить дополнительные приложения и настроить кластеры по своему усмотрению. Amazon EMR также поддерживает множество дистрибутивов и приложений Hadoop.

Примеры использования

Анализ навигации

Amazon EMR можно использовать для анализа данных навигации, чтобы сегментировать аудиторию и определить предпочтения пользователей. Анализ навигации и логи впечатлений от рекламы можно также использовать для более эффективного распространения рекламных материалов.

Подробнее о том, как компания Razorfish использует EMR для анализа навигации »

Изучение генома

Amazon EMR можно использовать для быстрой и эффективной обработки больших объемов данных генома и других больших наборов научных данных. Исследователям предоставляется бесплатный доступ к данным генома, хранящимся в AWS.

Читать о проекте «1000 геномов» и AWS »

Обработка логов

Amazon EMR можно использовать для обработки лог-файлов, генерируемых веб- и мобильными приложениями. Amazon EMR позволяет клиентам работать с петабайтами неструктурированных или слабоструктурированных данных, чтобы получить полезную информацию об их приложениях или пользователях.

Подробнее о том, как Yelp использует EMR для управления ключевыми возможностями веб-сайта »

Запустите свой первый кластер за несколько минут

Вы готовы запустить свой первый кластер? Нажмите здесь для просмотра руководства. С его помощью вы создадите кластер, подсчитывающий частоту употребления слов в текстовом файле. Всего через несколько минут ваш кластер будет создан и начнет работу.