본문 바로가기

HDInsight

(3)
Azure, Big Data 그리고 락플레이스... HDInsight 개발자 가이드 문서 ~ 735페이지 분량의 알찬 공개 자료 *글 최초 발행일자: 2018.03.29* 마이크로소프트 애저(Azure) 환경에서 빅 데이터 플랫폼을 운영하는 방법은 여러 가지입니다. 직접 호튼웍스 HDP 같은 빅 데이터 플랫폼을 올려 클러스터를 꾸리는 방법과 함께 내부에 클러스터 관리 인력이 마땅치 않다면 마이크로소프트가 제공하는 매니지스 서비스를 이용할 수도 있습니다. Azure HDInsight란? 하둡, 스팍, 하이브, 맵리듀스, H베이스, 스톰, 카프카, 마이크로소프트 R 등 오픈 소스 기반 분석 클러스터 환경을 마이크로소프트가 책임지고 관리하는 매니지드 서비스입니다. 99.9% 수준의 SLA를 보장하기 때문에 클러스터 문제로 분석 작업에 차질이 생길까 걱정하지 않아도 됩니다. 이 서비스 이름은 그 유명은 'Azure HDInsight'입니..
HDInsight 클러스터 환경에서 운영하는 아파치 피닉스 ~ 이제 제플린 노트북으로 사용할 수 있다! *글 최초 발행일자: 2018.08.22* 아파치 피닉스(Apache Phoenix)는 HBase 기반의 대규모 병렬 관계형 데이터베이스로 OLPT나 분석 워크로드 처리에 쓰입니다. 아파치 피닉스 운영 환경으로 궁합이 참 잘 맞는 것이 애저의 HD인사이트(HDInsight)입니다. 그 이유는 4개 정도로 압축할 수 있습니다. 1) 아파치 피닉스 클러스터 생성의 간함 애저 환경에서 아파치 HBase나 피닉스 기반 워크로드 운영을 위한 클러스터를 생성하는 데 필요한 시간은? 몇 분이면 충분합니다. 애저 포탈을 통해 간편하게 만들 수 있습니다. 클러스터를 자주 만들어야 한다면 JSON 템플릿, 파워쉘, REST API, 애저 클라이언트 SDK를 통해 클러스터 생성 과정을 자동화할 수도 있습니다. 2) 필요한 ..
애저 HDInsight 새소식, 아파치 스파크 2.3 지원됩니다! 스파크 기반 머신 러닝, IoT 등 활용 시나리오가 더욱 풍성 ~ *글 최초 발행일자: 2018.07.12* 마이크로소프트가 제공하는 매니지드 기반 빅 데이터 서비스인 애저 HDInsight가 아파치 스파크 2.3.0을 공식 지원합니다. 스파크 2.3.0 버전의 주요 개선 사항은 크게 세 가지입니다. 첫 번째는 파이썬 UDF를 이용하는 데이터 엔지니어는 10배에서 최대 100배까지 빨라진 데이터 처리 속도를 경험할 수 있다는 것입니다. 이에 따라 데이터 엔지니어는 스파크 기반 머신 러닝 환경에 텐서플로우 등의 프레임워크를 통합해 운영하기 좋아졌습니다. 흔히 머신 러닝 파이프라인이라고 하죠. 다음 그림 보면 이해가 쉬울 것입니다. 스파크 기반 머신 러닝 파이프라인에 각종 프레임워크를 연결해 써도 될 만큼 데이터 처리 속도가 좋아졌습니다. 두 번째 개선 사항은 비즈니스 분..