본문 바로가기

락플레이스

(211)
Azure SQL Data Warehouse ~ 클라우드 기반 DW 시장 불꽃 튀는 경쟁 시대 *글 최초 발행일자: 2018.11.13* 요즘 클라우드 기반 데이터웨어하우스(DW) 시장 분위기가 심상치 않습니다. 클라우드 선두 주자들이 각자 기술 역량을 총동원해 자동화 기반의 경제적이고, 성능 좋은 DW 서비스의 장점을 알리느라 바쁩니다. 마이크로소프트의 무기는 Azure SQL Data Warehouse입니다. 성능이야 뭐 TPC-H, TPC-DS 등의 벤치마크를 통해 검증되었죠. 사용 기업도 늘고 있는 추세인데요, 포춘 1000대 기업에 속하는 Anheuser Busch InBev, Thomson Reuters, ThyssenKrupp 등에서 쓰고 있다고 합니다. Azure SQL Data Warehouse는 2018년 4월 Gen2 버전이 발표되면서 관심을 끌기 시작했습니다. Gen2의 주요..
OSS DB on Azure: 오라클 호환성을 통한 비용 효과 극대화 - Replacing Oracle with EDB Postgres *글 최초 발행일자: 2018.11.06* Open Source DB on Azure 세션 정리 시리즈 2탄 '오라클 호환성을 통한 비용 효과 극대화 - Replacing Oracle with EDB Postgres'를 발표한 김지훈 이사의 세션 요약입니다. 김지훈 이사는 발표와 함께 오픈 소스 데이터베이스(DB)의 현주소를 짚어 보았습니다. 대략 10년 전과 지금을 비교할 때 오픈 소스 DB는 괄목할 만한 성장을 했습니다. 가트너의 평가를 보면 10년 사이 변화가 드라마틱 합니다. 오픈 소스의 장점은 충분히 인정하지만 엔터프라이즈가 요구하는 고가용성, 기능성 등을 충족하지 못한다는 것이 2000년대 오픈 소스 DB에 대한 평가였다면 지금은 결과가 180도 다릅니다. 2015년 기준의 가트너 평가를 보시..
OSS DB on Azure: MySQL의 성능은 어디까지? *글 최초 발행일자: 2018.11.01* Open Source DB on Azure 세미나 세션 정리 시리즈를 시작합니다. 첫 번째 포스팅은 ‘마이크로소프트 애저(Azure)에서 경험하는 MySQL 성능 튜닝’을 주제로 발표한 락플레이스 김근동 이사의 세션입니다. 오픈 소스 DB 대세론 오픈 소스 관계형 데이터베이스(이하 오픈 소스 DB)를 클라우드에서 쓰는 것만큼 자연스러운 것이 또 어디 있을까요. 사실 오픈 소스 DB는 온프레미스, 클라우드 가를 것 없이 쾌속 성장 중입니다. 오픈 소스 DB 성장에는 그만한 이유가 있습니다. 높아져만 가는 상용 DB의 무자비한 라이선스와 유지보수 계약에 지친 기업이 대안으로 선택할 만큼 성능, 기능, 안정성, 보안성을 보장하기 때문이죠. 실제로 많은 기업이 신규 애..
HDInsight 클러스터 환경에서 운영하는 아파치 피닉스 ~ 이제 제플린 노트북으로 사용할 수 있다! *글 최초 발행일자: 2018.08.22* 아파치 피닉스(Apache Phoenix)는 HBase 기반의 대규모 병렬 관계형 데이터베이스로 OLPT나 분석 워크로드 처리에 쓰입니다. 아파치 피닉스 운영 환경으로 궁합이 참 잘 맞는 것이 애저의 HD인사이트(HDInsight)입니다. 그 이유는 4개 정도로 압축할 수 있습니다. 1) 아파치 피닉스 클러스터 생성의 간함 애저 환경에서 아파치 HBase나 피닉스 기반 워크로드 운영을 위한 클러스터를 생성하는 데 필요한 시간은? 몇 분이면 충분합니다. 애저 포탈을 통해 간편하게 만들 수 있습니다. 클러스터를 자주 만들어야 한다면 JSON 템플릿, 파워쉘, REST API, 애저 클라이언트 SDK를 통해 클러스터 생성 과정을 자동화할 수도 있습니다. 2) 필요한 ..
불붙은 클라우드 기반 DW 성능 경쟁 - 애저가 아마존 Redshift를 앞서가나요 ~ ~ *글 최초 발행일자: 2018.07.23* 최근 클라우드 기반 데이터웨어하우스 서비스 경쟁이 갈수록 치열해지고 있습니다. 한동안 아마존 Redshift가 주도하나 싶더니, 오라클이 최근 오라클 오토노머스 데이터웨어하우스를 공개하면서 전통적인 강자(?)의 면모를 보여 주었죠. 이 경쟁에 마이크로소프트가 '나도 있다'라는 강력한 메시지를 보내고 있습니다. 마이크로소프트가 앞세우는 것은 성능과 가성비입니다. 마이크로소프트가 제공하는 클라우드 기반 데이터웨어하우스 서비스 이름은 '애저 SQL 데이터웨어하우스(Azure SQL Data Warehouse)'입니다. 이 서비스 관련 벤치마크 결과를 마이크로소프트가 공개했는데요, 그 수치가 인상적입니다. 공정을 기하기 위해 기가옴 리서치(Gigaom Research)..
애저 HDInsight 새소식, 아파치 스파크 2.3 지원됩니다! 스파크 기반 머신 러닝, IoT 등 활용 시나리오가 더욱 풍성 ~ *글 최초 발행일자: 2018.07.12* 마이크로소프트가 제공하는 매니지드 기반 빅 데이터 서비스인 애저 HDInsight가 아파치 스파크 2.3.0을 공식 지원합니다. 스파크 2.3.0 버전의 주요 개선 사항은 크게 세 가지입니다. 첫 번째는 파이썬 UDF를 이용하는 데이터 엔지니어는 10배에서 최대 100배까지 빨라진 데이터 처리 속도를 경험할 수 있다는 것입니다. 이에 따라 데이터 엔지니어는 스파크 기반 머신 러닝 환경에 텐서플로우 등의 프레임워크를 통합해 운영하기 좋아졌습니다. 흔히 머신 러닝 파이프라인이라고 하죠. 다음 그림 보면 이해가 쉬울 것입니다. 스파크 기반 머신 러닝 파이프라인에 각종 프레임워크를 연결해 써도 될 만큼 데이터 처리 속도가 좋아졌습니다. 두 번째 개선 사항은 비즈니스 분..
하둡 애플리케이션을 위한 가장 경제적인 선택 - 클라우드 오브젝트 스토리지에서 Data Lake 운영 *글 최초 발행일자: 2018.07.02* 하둡 커뮤니티에서 가장 경제적인 스토리지 인프라 운영 방안으로 꼽는 것은? 네, 클라우드 서비스 사업자의 오브젝트 스토리지로 데이터 레이크를 운영하는 것입니다. 관련해 하둡 커뮤니티에서 최고로 꼽는 것은 ADL(Azure Data Lake) 스토리지입니다. ADL만 해도 경쟁력이 충분한데 마이크로소프트에서 ADL Gen2 프리뷰로 제대로 된 데이터 레이크 전용 클라우드 스토리지 아키텍처를 제시해 화제입니다. 다음 자료는 호튼웍스에서 작성한 것인데요. 클라우드 스토리지 관련 선택지를 보여 줍니다. 성능과 최적화 면에서 ADL은 최고죠. 클라우드 오브젝트 스토리지를 이용할 경우 성능이 문제가 되곤 합니다. 그 이유는 하둡 파일시스템(HDFS)을 추상화하기 때문이죠...
Azure Data Factory 버전 2 발표! 마우스 드래그앤드롭으로 70개가 넘는 소스에서 데이터 수집 및 통합 *글 최초 발행일자: 2018.06.28* 다양한 데이터 원천에서 데이터를 추출하고 변환해 적재하는 ETL 작업 ~ 참 손 많이 가는 일이죠. 클라우드에서는 이게 참 쉽습니다. 애저 환경의 경우 애저 데이터 팩토리(ADF) 기능을 지원하는데요, 최근 버전 2가 공식 발표되었습니다. ADF v2에 추가된 신 기능을 보면 '와우 ~' 소리가 좀 나옵니다. 데이터 원천을 지정하고, 정한 일정에 맞춰 데이터를 추출하고 변환해 통합하는 일련의 작업들이 정말 간단합니다. 여러 데이터 원천을 대상으로 ETL 작업을 하는 데이터 파이프라인을 이렇게 쉽게 그려도 되나 싶을 정도입니다. 간단히 주요 개선 사항을 보시죠. 첫 번째는 사용자 인터페이스(UI)입니다. 새로운 UI는 정말 직관적입니다. 데이터 소스를 지정하고 데..