Amazon EMR

Amazon Elastic MapReduce(EMR)는 대량의 데이터를 쉽고 빠르며 비용 효율적으로 처리할 수 있게 해주는 웹 서비스입니다.

Amazon EMR은 빅 데이터 처리를 간소화함으로써, 동적으로 확장할 수 있는 Amazon EC2 인스턴스에 대량의 데이터를 쉽고, 빠르고, 비용 효율적으로 배포하고 처리할 수 있는 관리형 하둡 프레임워크를 제공합니다. 또한, Amazon EMR에서 Apache Spark 및 Presto와 같은 일반적으로 사용되는 배포 프레임워크를 실행하고, Amazon S3 및 Amazon DynamoDB와 같은 다른 AWS 데이터 스토어의 데이터와 상호 작용할 수 있습니다.

Amazon EMR은 로그 분석, 웹 인덱싱, 데이터 웨어하우징, 기계 학습, 금융 분석, 과학적 시뮬레이션, 생물정보학을 비롯하여 빅 데이터 사용 사례를 안전하고 안정적으로 처리합니다.

Amazon EMR 소개 (3:06)

Amazon EMR 시작하기

무료 계정 생성

도움이 필요하십니까? 문의해 주십시오!

Amazon EMR에 관한 AWS 빅 데이터 블로그

Anomaly Detection Using PySpark, Hive, and Hue on Amazon EMR

Optimize Spark-Streaming to Efficiently Process Amazon Kinesis Streams

Submitting User Applications with spark-submit

Turning Amazon EMR into a Massive Amazon S3 Processing Engine with Campanile

Running an External Zeppelin Instance using S3 Backed Notebooks with Spark on Amazon EMR

Amazon EMR 소식

고객 성공 사례

Krux는 AWS를 사용하여 데이터 처리 요구 사항을 관리합니다. »

CrowdStrike는 Amazon EMR에서 Spark를 사용하여, 수백 테라바이트의 이벤트 데이터를 처리하고 악의적 활동이 있는지 파악합니다. »

GumGum은 Amazon EMR에서 Spark를 사용하여 인벤토리 예측, 클릭 스트림 로그의 처리, 그리고 Amazon S3에 있는 비정형 데이터의 임시 분석을 수행합니다. »

Kik는 Amazon EMR 및 하둡 Pig 스크립트를 사용하여, 방대한 로그 파일 데이터가 Amazon Redshift로 로드되기 전에 이를 처리합니다. »

Yelp는 초기 하드웨어 비용에서 55,000 USD를 절감할 수 있었습니다. »

Expedia는 웹 사이트의 글로벌 네트워크에서 클릭스트림 데이터를 처리합니다. »

FINRA(Financial Industry Regulatory Authority)는 변화하는 시장의 역동적인 상황에 대응하는 유연한 플랫폼을 구축하기 위해 Amazon EMR을 사용합니다. »

DataXu는 AWS에서 매달 30조 개의 광고 기회를 평가합니다. »

SnowPlow »

Channel 4는 온디맨드 동영상 서비스의 고객 상호 작용 데이터를 분석합니다. »

Swipely는 수백만 건의 신용카드 거래를 파악할 수 있게 해줍니다. »

분석 팀은 Amazon EMR과 하둡을 활용하여 분석 데이터를 집계합니다. »

Amazon EMR의 오픈 소스 애플리케이션

Amazon EMR의 버전이 지정된 릴리스에서는 Apache 하둡 및 Spark 에코시스템의 애플리케이션을 비롯하여 EMR 클러스터의 최신 오픈 소스 프로젝트를 손쉽게 선택하여 사용할 수 있습니다. 소프트웨어는 Amazon EMR에서 설치하고 구성하므로, 사용자는 관리 업무에서 벗어나 데이터의 가치를 높이는 데 집중할 수 있습니다.

기능 및 장점

사용 편의성

Amazon EMR 클러스터를 몇 분 만에 실행할 수 있습니다. 노드 프로비저닝, 클러스터 설정, 하둡 구성 또는 클러스터 튜닝은 걱정할 필요가 없습니다. Amazon EMR이 이러한 작업을 모두 처리해주므로 분석에만 집중할 수 있습니다.

저렴한 비용

Amazon EMR 요금은 간편하며 예측 가능합니다. 사용하는 모든 인스턴스에 시간당 요금이 부과됩니다. 노드 10개의 하둡 클러스터를 시간당 0.15 USD 정도의 비용으로 시작할 수 있습니다. Amazon EMR은 Amazon EC2 스팟 인스턴스 및 예약 인스턴스를 기본으로 지원하기 때문에 기본 인스턴스 비용을 50~80%까지 절감할 수도 있습니다.

탄력성

Amazon EMR을 사용하면 컴퓨팅 인스턴스를 한 개에서 수백 개 또는 심지어 수천 개까지 원하는 대로 프로비저닝해서 데이터를 처리할 수 있습니다. 인스턴스 수를 쉽게 늘리거나 줄일 수 있으며, 사용한 양에 대해서만 요금을 지불합니다.

안정성

클러스터 튜닝과 모니터링에 걸리는 시간을 줄일 수 있습니다. Amazon EMR은 클라우드에 적합하게 하둡을 튜닝했습니다. 또한, 클러스터를 모니터링하여 실패한 작업을 다시 시도하고 성능이 떨어지는 인스턴스를 자동으로 교체합니다.

보안

Amazon EMR이 인스턴스에 대한 네트워크 액세스를 제어하는 Amazon EC2 방화벽 설정을 자동으로 구성해주기 때문에 사용자는 직접 정의하는 논리적 격리 네트워크인 Amazon Virtual Private Cloud(VPC)에서 클러스터를 시작할 수 있습니다. Amazon S3에 저장된 객체의 경우, AWS Key Management Service나 고객 관리 키를 통해 Amazon S3 서버 측 암호화 또는 Amazon S3 클라이언트 측 암호화(EMRFS 포함)를 사용할 수 있습니다.