Amazon EMR

O Amazon Elastic MapReduce (Amazon EMR) é um serviço da web que facilita o processamento de grandes quantidades de dados com rapidez e economia.

O Amazon EMR simplifica o processamento de big data, oferecendo uma estrutura Hadoop gerenciada que permite distribuir e processar grandes quantidades de dados em instâncias dinamicamente escaláveis do Amazon EC2 de forma fácil, rápida e econômica. O Amazon EMR também permite executar outras estruturas distribuídas conhecidas, como Apache Spark e Presto, bem como interagir com outros armazenamentos de dados da AWS, como Amazon S3 e Amazon DynamoDB.

O Amazon EMR processa seus casos de uso de big data com segurança e confiabilidade, incluindo análise de logs, indexação da web, armazéns de dados, aprendizagem de máquina, análise financeira, simulação científica e bioinformática.

Introdução ao Amazon EMR (3:06)

Comece a usar o Amazon EMR

Crie uma conta gratuita

Precisa de ajuda? Fale conosco.

Amazon EMR no blog de big data da AWS

Anomaly Detection Using PySpark, Hive, and Hue on Amazon EMR

Optimize Spark-Streaming to Efficiently Process Amazon Kinesis Streams

Submitting User Applications with spark-submit

Turning Amazon EMR into a Massive Amazon S3 Processing Engine with Campanile

Running an External Zeppelin Instance using S3 Backed Notebooks with Spark on Amazon EMR

Novidades do Amazon EMR

Sucesso do cliente

A Krux usa a AWS para gerenciar requisitos de processamento de dados. »

A CrowdStrike usa o Amazon EMR com o Spark para processar centenas de terabytes de dados de evento para identificar a presença de atividades maliciosas. »

A GumGum usa o Spark no Amazon EMR para a previsão de inventário, processamento de logs de sequência de cliques e análise ad hoc de dados não estruturados no Amazon S3. »

A Kik usa os scripts do Amazon EMR e do Hadoop Pig para processar amplos dados de arquivos de log antes deles terem sido carregados no Amazon Redshift. »

A Yelp conseguiu economizar 55.000 USD de custos do valor inicial. »

Expedia processa dados de fluxos de cliques de uma rede global de sites »

A Autoridade de Regulamentação Financeira Industrial (FINRA) usa o Amazon EMR para criar uma plataforma flexível capaz de adaptar-se ao dinamismo do mercado. »

DataXu avalia 30 trilhões de oportunidades de anúncios mensalmente na AWS »

SnowPlow »

Channel 4 analisa dados de interação de clientes para seu serviço de vídeo sob demanda »

Swipely gera percepções a partir de milhões de transações de cartão de crédito. »

A equipe de análise usa o Amazon EMR e o Hadoop para agregar e analisar dados. »

Aplicativos de código aberto no Amazon EMR

Clique para aumentar — **Velocidade de lançamento do Amazon EMR**

Com os lançamentos com controle de versão no Amazon EMR, você pode facilmente selecionar e usar os projetos de código aberto mais recentes no seu cluster do EMR, como aplicativos nos ecossistemas do Apache Hadoop e do Spark. O software é instalado e configurado pelo Amazon EMR para que você dedique menos tempo a tarefas administrativas, e possa focar-se em ampliar os benefícios dos seus dados.

Recursos e benefícios

Fácil de usar

É possível iniciar um cluster Amazon EMR em minutos. Você não precisa se preocupar com provisionamento de nós, configuração de clusters, configuração do Hadoop ou ajustes de cluster. O Amazon EMR cuida dessas tarefas para que você se concentre na análise.

Baixo custo

A definição de preço do Amazon EMR é simples e previsível: você paga uma taxa horária por cada hora de instância usada. Você pode lançar um cluster Hadoop de 10 nós por apenas 0,15 USD por hora. Como o Amazon EMR tem suporte nativo para o spot do Amazon EC2 e instâncias reservadas, é possível economizar de 50 a 80% nos custos de instâncias subjacentes.

Flexível

Com o Amazon EMR, você pode provisionar uma, centenas ou até mesmo milhares de instâncias de computação para processar dados em qualquer escala. Você pode facilmente aumentar ou diminuir o número de instâncias e pagar somente pelo que usar.

Confiável

Você pode gastar menos tempo ajustando e monitorando seu cluster. O Amazon EMR ajustou o Hadoop para a nuvem. Além disso, ele monitora o seu cluster, tentando executar novamente tarefas com falha e substituindo automaticamente instâncias com baixo desempenho.

Seguro

O Amazon EMR configura automaticamente as configurações de firewall do Amazon EC2 que controlam o acesso via rede para as instâncias, e você pode executar clusters em uma Amazon Virtual Private Cloud (VPC), uma rede lógica isolada definida por você. Para objetos armazenados no Amazon S3, você pode usar a criptografia no lado do servidor ou a criptografia no lado do cliente do Amazon S3 com EMRFS, com o AWS Key Management Service ou com chaves gerenciadas pelo cliente.

Flexível

Você tem controle total sobre seu cluster. Você tem acesso a todas as instâncias. Portanto, você pode instalar facilmente aplicações adicionais e personalizar todos os clusters. O Amazon EMR também é compatível com várias distribuições e aplicações do Hadoop.

Casos de uso

Análise de Clickstream

O Amazon EMR pode ser usado para analisar dados de fluxos de cliques para segmentar usuários e entender suas preferências. Os publicitários também pode analisar os fluxos de cliques e publicar registros de impressão para oferecer anúncios mais eficazes.

Saiba como o Razorfish usa o EMR para análise de stream de cliques »

Genômica

O Amazon EMR pode ser usado para processar grandes quantidades de dados de genoma e outros conjuntos maciços de dados científicos de maneira rápida e eficaz. Os pesquisadores podem acessar dados de genoma hospedados gratuitamente na AWS.

Leia sobre o projeto 1000 Genomes e a AWS »

Processamento de log

O Amazon EMR pode ser usado para processar logs gerados por aplicativos móveis e da web. O Amazon EMR ajuda os clientes a transformar petabytes de dados não estruturados ou semi-estruturados em percepções úteis sobre seus aplicativos e usuários.

Saiba como a Yelp usa o EMR para gerar os principais recursos do site »

Execute seu primeiro cluster em minutos

Você está pronto para executar o seu primeiro cluster? Clique aqui para ver o Tutorial de conceitos básicos. No tutorial, você criará um cluster que contará a frequência de palavras em um arquivo de texto de exemplo. Em apenas alguns minutos, seu cluster estará totalmente operacional.