본문 바로가기

OSS on Azure/Database

(38)
HDInsight 클러스터 환경에서 운영하는 아파치 피닉스 ~ 이제 제플린 노트북으로 사용할 수 있다! *글 최초 발행일자: 2018.08.22* 아파치 피닉스(Apache Phoenix)는 HBase 기반의 대규모 병렬 관계형 데이터베이스로 OLPT나 분석 워크로드 처리에 쓰입니다. 아파치 피닉스 운영 환경으로 궁합이 참 잘 맞는 것이 애저의 HD인사이트(HDInsight)입니다. 그 이유는 4개 정도로 압축할 수 있습니다. 1) 아파치 피닉스 클러스터 생성의 간함 애저 환경에서 아파치 HBase나 피닉스 기반 워크로드 운영을 위한 클러스터를 생성하는 데 필요한 시간은? 몇 분이면 충분합니다. 애저 포탈을 통해 간편하게 만들 수 있습니다. 클러스터를 자주 만들어야 한다면 JSON 템플릿, 파워쉘, REST API, 애저 클라이언트 SDK를 통해 클러스터 생성 과정을 자동화할 수도 있습니다. 2) 필요한 ..
불붙은 클라우드 기반 DW 성능 경쟁 - 애저가 아마존 Redshift를 앞서가나요 ~ ~ *글 최초 발행일자: 2018.07.23* 최근 클라우드 기반 데이터웨어하우스 서비스 경쟁이 갈수록 치열해지고 있습니다. 한동안 아마존 Redshift가 주도하나 싶더니, 오라클이 최근 오라클 오토노머스 데이터웨어하우스를 공개하면서 전통적인 강자(?)의 면모를 보여 주었죠. 이 경쟁에 마이크로소프트가 '나도 있다'라는 강력한 메시지를 보내고 있습니다. 마이크로소프트가 앞세우는 것은 성능과 가성비입니다. 마이크로소프트가 제공하는 클라우드 기반 데이터웨어하우스 서비스 이름은 '애저 SQL 데이터웨어하우스(Azure SQL Data Warehouse)'입니다. 이 서비스 관련 벤치마크 결과를 마이크로소프트가 공개했는데요, 그 수치가 인상적입니다. 공정을 기하기 위해 기가옴 리서치(Gigaom Research)..
애저 HDInsight 새소식, 아파치 스파크 2.3 지원됩니다! 스파크 기반 머신 러닝, IoT 등 활용 시나리오가 더욱 풍성 ~ *글 최초 발행일자: 2018.07.12* 마이크로소프트가 제공하는 매니지드 기반 빅 데이터 서비스인 애저 HDInsight가 아파치 스파크 2.3.0을 공식 지원합니다. 스파크 2.3.0 버전의 주요 개선 사항은 크게 세 가지입니다. 첫 번째는 파이썬 UDF를 이용하는 데이터 엔지니어는 10배에서 최대 100배까지 빨라진 데이터 처리 속도를 경험할 수 있다는 것입니다. 이에 따라 데이터 엔지니어는 스파크 기반 머신 러닝 환경에 텐서플로우 등의 프레임워크를 통합해 운영하기 좋아졌습니다. 흔히 머신 러닝 파이프라인이라고 하죠. 다음 그림 보면 이해가 쉬울 것입니다. 스파크 기반 머신 러닝 파이프라인에 각종 프레임워크를 연결해 써도 될 만큼 데이터 처리 속도가 좋아졌습니다. 두 번째 개선 사항은 비즈니스 분..
하둡 애플리케이션을 위한 가장 경제적인 선택 - 클라우드 오브젝트 스토리지에서 Data Lake 운영 *글 최초 발행일자: 2018.07.02* 하둡 커뮤니티에서 가장 경제적인 스토리지 인프라 운영 방안으로 꼽는 것은? 네, 클라우드 서비스 사업자의 오브젝트 스토리지로 데이터 레이크를 운영하는 것입니다. 관련해 하둡 커뮤니티에서 최고로 꼽는 것은 ADL(Azure Data Lake) 스토리지입니다. ADL만 해도 경쟁력이 충분한데 마이크로소프트에서 ADL Gen2 프리뷰로 제대로 된 데이터 레이크 전용 클라우드 스토리지 아키텍처를 제시해 화제입니다. 다음 자료는 호튼웍스에서 작성한 것인데요. 클라우드 스토리지 관련 선택지를 보여 줍니다. 성능과 최적화 면에서 ADL은 최고죠. 클라우드 오브젝트 스토리지를 이용할 경우 성능이 문제가 되곤 합니다. 그 이유는 하둡 파일시스템(HDFS)을 추상화하기 때문이죠...
Azure Data Factory 버전 2 발표! 마우스 드래그앤드롭으로 70개가 넘는 소스에서 데이터 수집 및 통합 *글 최초 발행일자: 2018.06.28* 다양한 데이터 원천에서 데이터를 추출하고 변환해 적재하는 ETL 작업 ~ 참 손 많이 가는 일이죠. 클라우드에서는 이게 참 쉽습니다. 애저 환경의 경우 애저 데이터 팩토리(ADF) 기능을 지원하는데요, 최근 버전 2가 공식 발표되었습니다. ADF v2에 추가된 신 기능을 보면 '와우 ~' 소리가 좀 나옵니다. 데이터 원천을 지정하고, 정한 일정에 맞춰 데이터를 추출하고 변환해 통합하는 일련의 작업들이 정말 간단합니다. 여러 데이터 원천을 대상으로 ETL 작업을 하는 데이터 파이프라인을 이렇게 쉽게 그려도 되나 싶을 정도입니다. 간단히 주요 개선 사항을 보시죠. 첫 번째는 사용자 인터페이스(UI)입니다. 새로운 UI는 정말 직관적입니다. 데이터 소스를 지정하고 데..
SQL 서버를 위한 애저 백업 서비스 ~ 프리뷰부터 설레는 이유 *글 최초 발행일자: 2018.06.11* 데이터베이스 백업 ~ 관리자의 일상이죠. 장애나 재해가 발생했는데, 백업본이 없다면? 난감하죠. 있어도 할 일이 태산입니다. 데이터베이스는 그 위치가 사내에 있건, 공용 클라우드에 있건 늘 신경 써야 하는 중요한 일입니다. 관련해 마이크로소프트가 'Azure Backup for SQL Server on Azure' 프리뷰를 선보인 소식을 소개합니다. SQL Server on Azure 백업 어떻게 해야 할지 고민들 많았을 것입니다. 인프라를 따로 마련해 공용 클라우드에서 쓰는 데이터베이스 서비스를 백업받아야 하나? 아니면 클라우드 스토리지를 구독해 백업 작업을 해야 하나? 어느 기간 정도 디스크나 공용 클라우드나 스토리지에 저장해 두어야 하나? 복원 작업 관련해..
MySQL, PostgreSQL 서비스를 위한 VNet 서비스 ~ DB 서비스를 위한 네트워크 보안의 기본 *글 최초 발행일자: 2018.06.11* 요즘 클라우드에서 데이터베이스 쓰는 곳이 늘고 있습니다. 서버리스 관련해 이런저런 시도를 하다 보면 자연스럽게 데이터베이스까지 쓰게 되나 봅니다. 이런 시대적 흐름에 맞춰 클라우드 사업자들이 유명 오픈 소스 데이터베이스를 매니지드 서비스 형태로 서둘러 내놓고 있죠. 애저에도 당연히 있습니다. ▶ Azure Database for MySQL ▶ Azure Database for PostgreSQL 위 두 서비스는 하루하루 엔터프라이즈 눈높이에 맞게 기능이 강화되고 있습니다. 현재 가용성은 SLA 기준으로 99.99% 수준입니다. 이 외에 지속해서 강화되는 대표 분야는 보안 쪽입니다. 아무래도 데이터베이스이다 보니 각종 규제 준수부터 중요 데이터 보안까지 신경 쓸 ..
애저 SQL 데이터베이스 취약점 평가 기능 ~ 각종 데이터 보안 관련 규제 준수를 위한 필수 옵션이 될 듯! *글 최초 발행일자: 2018.05.22* 최근 데이터베이스 취약점 점검 서비스인 SQL Vulnerability Assessment(이하 VA)가 프리뷰 단계를 마치고 공식 출시되었습니다. VA는 클라우드에서 애저 SQL 데이터베이스를 이용하거나, 온프레미스에서 SQL 서버를 사용하는 기업 모두 사용이 가능합니다. VA는 꽤 유용합니다. 정해진 일정에 맞춰 취약점을 스캔하고, 해당 결과를 관리자에게 알려줍니다. 한국의 개인정보보호법이나 유럽의 GDPR 같은 규제 준수에 꼭 필요한 도구라 볼 수 있습니다. VA 화면을 보니 매우 직관적이네요, 외부 공격에 취약한 설정을 찾는 데 있어 VA만 잘 활용해도 충분할 듯합니다. VA는 애저 SQL ATP(Advanced Threat Protection)의 일부로..