글로벌 서비스를 운영하고 있는 회사라면, 사용자의 IP 정보를 이용하여 해당 사용자가 어떤 국가에 속하는지 확인할 수 있습니다. Apache Tajo는 이러한 분석을 위하여 Geoip 데이터 베이스 기반의 다양한 네트워크 함수를 제공합니다.Geoip는 Maxmind에서 제공하는 국가별 IP를 확인할 수 있는 라이브러리로, IP 정보가 들어 있는 데이터 베이스 파일과 이 파일을 활용할 수 있는 API 를 함께 제공합니다. 하지만 Geoip는 LGPL ..
하둡1.0 에서 맵리듀스를 실행할 때는 슬롯 단위로 맵/리듀스 태스크 개수를 관리했습니다. 하지만 하둡2.0에서 YARN(이하: 얀)이 도입되면서 슬롯이 아닌 컨테이너 단위로 리소스를 할당하게 됩니다. 얀의 리소스매니저는 전체 클러스터의 리소스 정보를 토대로 할당 가능한 컨테이너 개수를 계산하며, 맵리듀스는 필요한 컨테이너들을 할당 받아서 맵리듀스 태스크를 실행하게 됩니다. 이때 컨테이너 개수와 맵과 리듀스 태스크 개수는 1:1의 관계가 아니며, 맵..
타조(Tajo) 에 대한 자주 받는 질문 중 하나는 워크플로우에 대한 문의입니다. 타조가 데이터 웨어하우스이고 ETL을 수행할 수 있다고 하는데, 실무자들이 사용할 수 있는 ETL 도구까지 준비되어 있느냐는 것입니다. 물론 타조 자체가 위와 같은 도구를 제공할 수 있지만, 이 영역은 써드 파티(3rd party) 가 담당할 분야라고 생각합니다. 그렇다면 타조를 이용한 워크플로우 도구에는 어떤 것들이 있을까요? 그동안 가장 많이 사용했던 도구는 젠킨스..
- Total
- 340,319
- Today
- 235
- Yesterday
- 455
- Yarn
- CDH
- HBASE
- 하둡
- 행복한 개발자
- 타조
- virtualbox
- ssh
- 빅데이터
- hadoop 책
- lzo
- hadoop
- 튜닝
- Zookeeper
- MapReduce
- 하둡 교재
- Hadoop book
- 맵리듀스
- Git
- 하둡 책
- 하이브
- Apache Tajo
- Hive
- ec2
- snappy
- IntelliJ
- SQL-On-Hadoop
- 개발자 비전
- AWS
- Tajo