본문 바로가기

rockplace

(153)
불붙은 클라우드 기반 DW 성능 경쟁 - 애저가 아마존 Redshift를 앞서가나요 ~ ~ *글 최초 발행일자: 2018.07.23* 최근 클라우드 기반 데이터웨어하우스 서비스 경쟁이 갈수록 치열해지고 있습니다. 한동안 아마존 Redshift가 주도하나 싶더니, 오라클이 최근 오라클 오토노머스 데이터웨어하우스를 공개하면서 전통적인 강자(?)의 면모를 보여 주었죠. 이 경쟁에 마이크로소프트가 '나도 있다'라는 강력한 메시지를 보내고 있습니다. 마이크로소프트가 앞세우는 것은 성능과 가성비입니다. 마이크로소프트가 제공하는 클라우드 기반 데이터웨어하우스 서비스 이름은 '애저 SQL 데이터웨어하우스(Azure SQL Data Warehouse)'입니다. 이 서비스 관련 벤치마크 결과를 마이크로소프트가 공개했는데요, 그 수치가 인상적입니다. 공정을 기하기 위해 기가옴 리서치(Gigaom Research)..
애저 HDInsight 새소식, 아파치 스파크 2.3 지원됩니다! 스파크 기반 머신 러닝, IoT 등 활용 시나리오가 더욱 풍성 ~ *글 최초 발행일자: 2018.07.12* 마이크로소프트가 제공하는 매니지드 기반 빅 데이터 서비스인 애저 HDInsight가 아파치 스파크 2.3.0을 공식 지원합니다. 스파크 2.3.0 버전의 주요 개선 사항은 크게 세 가지입니다. 첫 번째는 파이썬 UDF를 이용하는 데이터 엔지니어는 10배에서 최대 100배까지 빨라진 데이터 처리 속도를 경험할 수 있다는 것입니다. 이에 따라 데이터 엔지니어는 스파크 기반 머신 러닝 환경에 텐서플로우 등의 프레임워크를 통합해 운영하기 좋아졌습니다. 흔히 머신 러닝 파이프라인이라고 하죠. 다음 그림 보면 이해가 쉬울 것입니다. 스파크 기반 머신 러닝 파이프라인에 각종 프레임워크를 연결해 써도 될 만큼 데이터 처리 속도가 좋아졌습니다. 두 번째 개선 사항은 비즈니스 분..
하둡 애플리케이션을 위한 가장 경제적인 선택 - 클라우드 오브젝트 스토리지에서 Data Lake 운영 *글 최초 발행일자: 2018.07.02* 하둡 커뮤니티에서 가장 경제적인 스토리지 인프라 운영 방안으로 꼽는 것은? 네, 클라우드 서비스 사업자의 오브젝트 스토리지로 데이터 레이크를 운영하는 것입니다. 관련해 하둡 커뮤니티에서 최고로 꼽는 것은 ADL(Azure Data Lake) 스토리지입니다. ADL만 해도 경쟁력이 충분한데 마이크로소프트에서 ADL Gen2 프리뷰로 제대로 된 데이터 레이크 전용 클라우드 스토리지 아키텍처를 제시해 화제입니다. 다음 자료는 호튼웍스에서 작성한 것인데요. 클라우드 스토리지 관련 선택지를 보여 줍니다. 성능과 최적화 면에서 ADL은 최고죠. 클라우드 오브젝트 스토리지를 이용할 경우 성능이 문제가 되곤 합니다. 그 이유는 하둡 파일시스템(HDFS)을 추상화하기 때문이죠...
Azure Data Factory 버전 2 발표! 마우스 드래그앤드롭으로 70개가 넘는 소스에서 데이터 수집 및 통합 *글 최초 발행일자: 2018.06.28* 다양한 데이터 원천에서 데이터를 추출하고 변환해 적재하는 ETL 작업 ~ 참 손 많이 가는 일이죠. 클라우드에서는 이게 참 쉽습니다. 애저 환경의 경우 애저 데이터 팩토리(ADF) 기능을 지원하는데요, 최근 버전 2가 공식 발표되었습니다. ADF v2에 추가된 신 기능을 보면 '와우 ~' 소리가 좀 나옵니다. 데이터 원천을 지정하고, 정한 일정에 맞춰 데이터를 추출하고 변환해 통합하는 일련의 작업들이 정말 간단합니다. 여러 데이터 원천을 대상으로 ETL 작업을 하는 데이터 파이프라인을 이렇게 쉽게 그려도 되나 싶을 정도입니다. 간단히 주요 개선 사항을 보시죠. 첫 번째는 사용자 인터페이스(UI)입니다. 새로운 UI는 정말 직관적입니다. 데이터 소스를 지정하고 데..
SQL 서버를 위한 애저 백업 서비스 ~ 프리뷰부터 설레는 이유 *글 최초 발행일자: 2018.06.11* 데이터베이스 백업 ~ 관리자의 일상이죠. 장애나 재해가 발생했는데, 백업본이 없다면? 난감하죠. 있어도 할 일이 태산입니다. 데이터베이스는 그 위치가 사내에 있건, 공용 클라우드에 있건 늘 신경 써야 하는 중요한 일입니다. 관련해 마이크로소프트가 'Azure Backup for SQL Server on Azure' 프리뷰를 선보인 소식을 소개합니다. SQL Server on Azure 백업 어떻게 해야 할지 고민들 많았을 것입니다. 인프라를 따로 마련해 공용 클라우드에서 쓰는 데이터베이스 서비스를 백업받아야 하나? 아니면 클라우드 스토리지를 구독해 백업 작업을 해야 하나? 어느 기간 정도 디스크나 공용 클라우드나 스토리지에 저장해 두어야 하나? 복원 작업 관련해..
OpenShift 활용: 리눅스와 윈도우 컨테이너 운영을 위한 Bare Metal 환경 기반 사내 구축 기업의 클라우드 전환의 징검다리로 많은 이들이 쿠버네티스(Kubernetes)에 주목하고 있습니다. 컨테이너 활용의 일반적인 방향은 비슷합니다. 시스템의 특성에 따라 가상 머신과 컨테이너를 선별적으로 접근을 하는 것을 큰 틀로 잡되 최종 목표로 삼은 클라우드 네이티브 환경으로 가기 위해 컨테이너 활용 비중을 점차 늘리는 것입니다. 이와 함께 하이브리드, 멀티 클라우드 모두를 아우르기 위해 OpenShift 같은 오픈 소스 기반 플랫폼을 활용하는 것도 큰 흐름으로 자리 잡고 있습니다. OpenShift를 중심에 놓고 사설, 하이브리드, 멀티 클라우드 환경에 컨테이너 환경을 구축해 운영하는 것은 나날이 강력하고 편리해지고 있습니다. 선택지도 넓어지고 있습니다. 관련해 최근 발표된 Red Hat OpenShi..
애저 SQL 데이터베이스 취약점 평가 기능 ~ 각종 데이터 보안 관련 규제 준수를 위한 필수 옵션이 될 듯! *글 최초 발행일자: 2018.05.22* 최근 데이터베이스 취약점 점검 서비스인 SQL Vulnerability Assessment(이하 VA)가 프리뷰 단계를 마치고 공식 출시되었습니다. VA는 클라우드에서 애저 SQL 데이터베이스를 이용하거나, 온프레미스에서 SQL 서버를 사용하는 기업 모두 사용이 가능합니다. VA는 꽤 유용합니다. 정해진 일정에 맞춰 취약점을 스캔하고, 해당 결과를 관리자에게 알려줍니다. 한국의 개인정보보호법이나 유럽의 GDPR 같은 규제 준수에 꼭 필요한 도구라 볼 수 있습니다. VA 화면을 보니 매우 직관적이네요, 외부 공격에 취약한 설정을 찾는 데 있어 VA만 잘 활용해도 충분할 듯합니다. VA는 애저 SQL ATP(Advanced Threat Protection)의 일부로..
Azure Database for PostgreSQL ~ 기다리지 말고 프리뷰부터 써보자! *글 최초 발행일자: 2018.03.29* 2017년 마이크로소프트 빌드 행사에서 Azure Database for PostgreSQL 프리뷰가 공개되었었죠. 오픈 소스 커뮤니티에서는 두 손 들여 반겼습니다. 애저 클라우드 환경에서 PostgreSQL을 더 편하게 쓸 수 있다는 데 마다할 이유가 뭐 있겠습니까. 발표 후 마이크로소프트가 PostgreSQL 커뮤니티와 긴밀히 협력하며 진도를 뽑고 있다고 하는데요, 대략 어느 방향으로 흘러가는지 함께 보며 애저에 PostgreSQL 올리는 계획 좀 잡아 보시죠. 커뮤니티 에디션 기반으로 작업 중.... 현재 마이크로소프트는 커뮤니티 에디션 기반으로 고가용성, 보안, 최소한의 타운타임을 통한 확장 등을 지원하는 Azure Database for PostgreS..