Amazon Elastic MapReduce(EMR)는 대량의 데이터를 쉽고 빠르며 비용 효율적으로 처리할 수 있게 해주는 웹 서비스입니다.
Amazon EMR은 빅 데이터 처리를 간소화함으로써, 동적으로 확장할 수 있는 Amazon EC2 인스턴스에 대량의 데이터를 쉽고, 빠르고, 비용 효율적으로 배포하고 처리할 수 있는 관리형 하둡 프레임워크를 제공합니다. 또한, Amazon EMR에서 Apache Spark 및 Presto와 같은 일반적으로 사용되는 배포 프레임워크를 실행하고, Amazon S3 및 Amazon DynamoDB와 같은 다른 AWS 데이터 스토어의 데이터와 상호 작용할 수 있습니다.
Amazon EMR은 로그 분석, 웹 인덱싱, 데이터 웨어하우징, 기계 학습, 금융 분석, 과학적 시뮬레이션, 생물정보학을 비롯하여 빅 데이터 사용 사례를 안전하고 안정적으로 처리합니다.
Anomaly Detection Using PySpark, Hive, and Hue on Amazon EMR
Optimize Spark-Streaming to Efficiently Process Amazon Kinesis Streams
Submitting User Applications with spark-submit
Turning Amazon EMR into a Massive Amazon S3 Processing Engine with Campanile
Running an External Zeppelin Instance using S3 Backed Notebooks with Spark on Amazon EMR
Amazon EMR의 버전이 지정된 릴리스에서는 Apache 하둡 및 Spark 에코시스템의 애플리케이션을 비롯하여 EMR 클러스터의 최신 오픈 소스 프로젝트를 손쉽게 선택하여 사용할 수 있습니다. 소프트웨어는 Amazon EMR에서 설치하고 구성하므로, 사용자는 관리 업무에서 벗어나 데이터의 가치를 높이는 데 집중할 수 있습니다.
Amazon EMR을 사용하면 컴퓨팅 인스턴스를 한 개에서 수백 개 또는 심지어 수천 개까지 원하는 대로 프로비저닝해서 데이터를 처리할 수 있습니다. 인스턴스 수를 쉽게 늘리거나 줄일 수 있으며, 사용한 양에 대해서만 요금을 지불합니다.
Amazon EMR이 인스턴스에 대한 네트워크 액세스를 제어하는 Amazon EC2 방화벽 설정을 자동으로 구성해주기 때문에 사용자는 직접 정의하는 논리적 격리 네트워크인 Amazon Virtual Private Cloud(VPC)에서 클러스터를 시작할 수 있습니다. Amazon S3에 저장된 객체의 경우, AWS Key Management Service나 고객 관리 키를 통해 Amazon S3 서버 측 암호화 또는 Amazon S3 클라이언트 측 암호화(EMRFS 포함)를 사용할 수 있습니다.
Amazon EMR은 사용자를 분류하고 사용자의 선호도를 이해하기 위해 클릭 스트림 데이터를 분석하는 데 사용될 수 있습니다. 광고사는 클릭스트림과 광고 노출 횟수 로그를 분석하여 더 효율적인 광고를 제공할 수 있습니다.
Amazon EMR은 막대한 양의 유전자 데이터와 기타 대규모 과학 데이터 집합을 빠르고 효율적으로 처리하는 데 사용될 수 있습니다. 연구원들은 AWS에서 무료로 호스팅되는 유전자 데이터에 액세스할 수 있습니다.
Amazon EMR은 웹 및 모바일 애플리케이션에서 생성된 로그를 처리하는 데 사용될 수 있습니다. Amazon EMR은 고객이 수 페타바이트의 비정형 또는 반정형 데이터를 애플리케이션 또는 사용자에 대한 유용한 정보로 전환할 수 있도록 지원합니다.
첫 번째 클러스터를 실행할 준비가 되었습니까? 시작 자습서를 보려면 여기를 클릭하십시오. 자습서에서 샘플 텍스트 파일의 단어 빈도를 계수하는 클러스터를 만듭니다. 몇 분 만에 클러스터가 가동 및 실행됩니다.