Amazon Elastic MapReduce(EMR)는 대량의 데이터를 쉽고 빠르며 비용 효율적으로 처리할 수 있게 해주는 웹 서비스입니다.

Amazon EMR은 빅 데이터 처리를 간소화함으로써, 동적으로 확장할 수 있는 Amazon EC2 인스턴스에 대량의 데이터를 쉽고, 빠르고, 비용 효율적으로 배포하고 처리할 수 있는 관리형 하둡 프레임워크를 제공합니다. 또한, Amazon EMR에서 Apache Spark 및 Presto와 같은 일반적으로 사용되는 배포 프레임워크를 실행하고, Amazon S3 및 Amazon DynamoDB와 같은 다른 AWS 데이터 스토어의 데이터와 상호 작용할 수 있습니다.

Amazon EMR은 로그 분석, 웹 인덱싱, 데이터 웨어하우징, 기계 학습, 금융 분석, 과학적 시뮬레이션, 생물정보학을 비롯하여 빅 데이터 사용 사례를 안전하고 안정적으로 처리합니다.

Amazon EMR 소개 (3:06)

thumb-S6Ja55n-o0M-3

확대하려면 클릭

Amazon EMR 릴리스 속도

Amazon EMR 릴리스 속도

Amazon EMR의 버전이 지정된 릴리스에서는 Apache 하둡 및 Spark 에코시스템의 애플리케이션을 비롯하여 EMR 클러스터의 최신 오픈 소스 프로젝트를 손쉽게 선택하여 사용할 수 있습니다.  소프트웨어는 Amazon EMR에서 설치하고 구성하므로, 사용자는 관리 업무에서 벗어나 데이터의 가치를 높이는 데 집중할 수 있습니다.


사용 편의성

Amazon EMR 클러스터를 몇 분 만에 실행할 수 있습니다. 노드 프로비저닝, 클러스터 설정, 하둡 구성 또는 클러스터 튜닝은 걱정할 필요가 없습니다. Amazon EMR이 이러한 작업을 모두 처리해주므로 분석에만 집중할 수 있습니다.

저렴한 비용

Amazon EMR 요금은 간편하며 예측 가능합니다. 사용하는 모든 인스턴스에 시간당 요금이 부과됩니다. 노드 10개의 하둡 클러스터를 시간당 0.15 USD 정도의 비용으로 시작할 수 있습니다. Amazon EMR은 Amazon EC2 스팟 인스턴스 및 예약 인스턴스를 기본으로 지원하기 때문에 기본 인스턴스 비용을 50~80%까지 절감할 수도 있습니다.

탄력성

Amazon EMR을 사용하면 컴퓨팅 인스턴스를 한 개에서 수백 개 또는 심지어 수천 개까지 원하는 대로 프로비저닝해서 데이터를 처리할 수 있습니다. 인스턴스 수를 쉽게 늘리거나 줄일 수 있으며, 사용한 양에 대해서만 요금을 지불합니다.

안정성

클러스터 튜닝과 모니터링에 걸리는 시간을 줄일 수 있습니다. Amazon EMR은 클라우드에 적합하게 하둡을 튜닝했습니다. 또한, 클러스터를 모니터링하여 실패한 작업을 다시 시도하고 성능이 떨어지는 인스턴스를 자동으로 교체합니다.

보안

Amazon EMR이 인스턴스에 대한 네트워크 액세스를 제어하는 Amazon EC2 방화벽 설정을 자동으로 구성해주기 때문에 사용자는 직접 정의하는 논리적 격리 네트워크인 Amazon Virtual Private Cloud(VPC)에서 클러스터를 시작할 수 있습니다. Amazon S3에 저장된 객체의 경우, AWS Key Management Service나 고객 관리 키를 통해 Amazon S3 서버 측 암호화 또는 Amazon S3 클라이언트 측 암호화(EMRFS 포함)를 사용할 수 있습니다.

보안

사용자가 클러스터를 완전히 제어할 수 있는 권한을 보유합니다. 모든 인스턴스에 대한 루트 액세스 권한을 보유하기 때문에 추가 애플리케이션을 쉽게 설치하고 모든 클러스터를 사용자 정의할 수 있습니다. 또한, Amazon EMR은 다중 하둡 배포 및 애플리케이션도 지원합니다.

Amazon EMR은 사용자를 분류하고 사용자의 선호도를 이해하기 위해 클릭 스트림 데이터를 분석하는 데 사용될 수 있습니다. 광고사는 클릭스트림과 광고 노출 횟수 로그를 분석하여 더 효율적인 광고를 제공할 수 있습니다.

Razorfish가 EMR을 사용하여 클릭 스트림 데이터를 분석하는 방법에 대해 알아보기 »

Amazon EMR은 막대한 양의 유전자 데이터와 기타 대규모 과학 데이터 집합을 빠르고 효율적으로 처리하는 데 사용될 수 있습니다. 연구원들은 AWS에서 무료로 호스팅되는 유전자 데이터에 액세스할 수 있습니다.

1000 게놈 프로젝트와 AWS에 대해 읽어보기 »

Amazon EMR은 웹 및 모바일 애플리케이션에서 생성된 로그를 처리하는 데 사용될 수 있습니다. Amazon EMR은 고객이 수 페타바이트의 비정형 또는 반정형 데이터를 애플리케이션 또는 사용자에 대한 유용한 정보로 전환할 수 있도록 지원합니다.

Yelp가 EMR을 사용하여 주요 웹 사이트 기능을 구현하는 방법에 대해 알아보기 »

첫 번째 클러스터를 실행할 준비가 되었습니까? 시작 자습서를 보려면 여기를 클릭하십시오. 자습서에서 샘플 텍스트 파일의 단어 빈도를 계수하는 클러스터를 만듭니다. 몇 분 만에 클러스터가 가동 및 실행됩니다.