O Amazon Elastic MapReduce (Amazon EMR) é um serviço da web que facilita o processamento de grandes quantidades de dados com rapidez e economia.
O Amazon EMR simplifica o processamento de big data, oferecendo uma estrutura Hadoop gerenciada que permite distribuir e processar grandes quantidades de dados em instâncias dinamicamente escaláveis do Amazon EC2 de forma fácil, rápida e econômica. O Amazon EMR também permite executar outras estruturas distribuídas conhecidas, como Apache Spark e Presto, bem como interagir com outros armazenamentos de dados da AWS, como Amazon S3 e Amazon DynamoDB.
O Amazon EMR processa seus casos de uso de big data com segurança e confiabilidade, incluindo análise de logs, indexação da web, armazéns de dados, aprendizagem de máquina, análise financeira, simulação científica e bioinformática.
Anomaly Detection Using PySpark, Hive, and Hue on Amazon EMR
Optimize Spark-Streaming to Efficiently Process Amazon Kinesis Streams
Submitting User Applications with spark-submit
Turning Amazon EMR into a Massive Amazon S3 Processing Engine with Campanile
Running an External Zeppelin Instance using S3 Backed Notebooks with Spark on Amazon EMR
Com os lançamentos com controle de versão no Amazon EMR, você pode facilmente selecionar e usar os projetos de código aberto mais recentes no seu cluster do EMR, como aplicativos nos ecossistemas do Apache Hadoop e do Spark. O software é instalado e configurado pelo Amazon EMR para que você dedique menos tempo a tarefas administrativas, e possa focar-se em ampliar os benefícios dos seus dados.
É possível iniciar um cluster Amazon EMR em minutos. Você não precisa se preocupar com provisionamento de nós, configuração de clusters, configuração do Hadoop ou ajustes de cluster. O Amazon EMR cuida dessas tarefas para que você se concentre na análise.
A definição de preço do Amazon EMR é simples e previsível: você paga uma taxa horária por cada hora de instância usada. Você pode lançar um cluster Hadoop de 10 nós por apenas 0,15 USD por hora. Como o Amazon EMR tem suporte nativo para o spot do Amazon EC2 e instâncias reservadas, é possível economizar de 50 a 80% nos custos de instâncias subjacentes.
Com o Amazon EMR, você pode provisionar uma, centenas ou até mesmo milhares de instâncias de computação para processar dados em qualquer escala. Você pode facilmente aumentar ou diminuir o número de instâncias e pagar somente pelo que usar.
O Amazon EMR configura automaticamente as configurações de firewall do Amazon EC2 que controlam o acesso via rede para as instâncias, e você pode executar clusters em uma Amazon Virtual Private Cloud (VPC), uma rede lógica isolada definida por você. Para objetos armazenados no Amazon S3, você pode usar a criptografia no lado do servidor ou a criptografia no lado do cliente do Amazon S3 com EMRFS, com o AWS Key Management Service ou com chaves gerenciadas pelo cliente.
O Amazon EMR pode ser usado para analisar dados de fluxos de cliques para segmentar usuários e entender suas preferências. Os publicitários também pode analisar os fluxos de cliques e publicar registros de impressão para oferecer anúncios mais eficazes.
Saiba como o Razorfish usa o EMR para análise de stream de cliques »
O Amazon EMR pode ser usado para processar grandes quantidades de dados de genoma e outros conjuntos maciços de dados científicos de maneira rápida e eficaz. Os pesquisadores podem acessar dados de genoma hospedados gratuitamente na AWS.
O Amazon EMR pode ser usado para processar logs gerados por aplicativos móveis e da web. O Amazon EMR ajuda os clientes a transformar petabytes de dados não estruturados ou semi-estruturados em percepções úteis sobre seus aplicativos e usuários.
Saiba como a Yelp usa o EMR para gerar os principais recursos do site »
Você está pronto para executar o seu primeiro cluster? Clique aqui para ver o Tutorial de conceitos básicos. No tutorial, você criará um cluster que contará a frequência de palavras em um arquivo de texto de exemplo. Em apenas alguns minutos, seu cluster estará totalmente operacional.