*글 최초 발행일자: 2018.07.02*
하둡 커뮤니티에서 가장 경제적인 스토리지 인프라 운영 방안으로 꼽는 것은? 네, 클라우드 서비스 사업자의 오브젝트 스토리지로 데이터 레이크를 운영하는 것입니다. 관련해 하둡 커뮤니티에서 최고로 꼽는 것은 ADL(Azure Data Lake) 스토리지입니다. ADL만 해도 경쟁력이 충분한데 마이크로소프트에서 ADL Gen2 프리뷰로 제대로 된 데이터 레이크 전용 클라우드 스토리지 아키텍처를 제시해 화제입니다.
다음 자료는 호튼웍스에서 작성한 것인데요. 클라우드 스토리지 관련 선택지를 보여 줍니다. 성능과 최적화 면에서 ADL은 최고죠.
클라우드 오브젝트 스토리지를 이용할 경우 성능이 문제가 되곤 합니다. 그 이유는 하둡 파일시스템(HDFS)을 추상화하기 때문이죠. ADL Gen2는 이런 문제를 근본적으로 해결하는 아키텍처를 제시합니다.
자 다음 그림을 보시죠. 많은 경우 하둡 애플리케이션은 클라이언트의 하둡 파일시스템 드라이버를 통해 create, open, rename 등의 작업을 에뮬레이션합니다. 이 경우 문제는 너무 많은 REST API 요청을 처리해야 한다는 것입니다. 이는 클라우드 오브젝트 스토리지의 경우 네임스페이스를 통해 폴더를 관리하지 않기 때문입니다. ADL Gen2의 경우 클라이언트에서 이루어지던 에뮬레이션 작업을 서버로 옮겨 오는 구조를 택했습니다. 클라이언트는 BLOB REST API 또는 ADL Gen2 API를 통해 데이터에 직접 접근할 수 있습니다. 또한, ADL Gen2는 성능을 보장하는 가운데 클라우드 규모의 확장성을 지원하기 위해 네임스페이스 기능이 추가되었습니다. 네임스페이스를 통해 계층적으로 파일과 폴더가 관리된다는 것입니다. 따라서 파일 삭제와 카피 같은 작업을 할 때 불필요한 API 호출을 줄일 수 있습니다.
다음 그림은 하둡 클라우드 스토리지 진화 방향에 대한 호튼웍스의 전망인데요, 결국 추상화 계층을 통한 작업이 아니라 오브젝트 스토리지와 직접 하둡 애플리케이션 연결되는 그런 구조로 발전하는 것이 빅 데이터 커뮤니티가 원하는 것이라 할 수 있습니다. 이 바람에 가장 가깝게 구현된 기술이 ADL Gen2가 아닐까 합니다.
보안성도 언급하지 않을 수 없는데요, ADL Gen2의 경우 애저 액티브 디렉토리가 통합됩니다. 따라서 RBAC 기반 접근 제어가 한결 간편해집니다. 여기에 ADL Gen2가 지원하는 POSIX 기반 ACL 기능을 이용하면 파일과 폴더 수준까지 접근 제어를 할 수 있습니다.
ADL Gen2에 대한 자세한 내용은 관련 문서나 마이크로소프트 채널9에 올라온 영상을 참조 바랍니다.
*이 외에도 락플레이스의(2021~) 최신 뉴스레터 소식을 받아보고 싶으시다면? *
*락플레이스 1:1 문의 바로가기*
락플레이스는 2005년에 출범하여 대한민국 리눅스의 역사와 성장을 함께 해온 오픈소스 전문 기업으로 국내 최다 엔지니어, 국내 최고 기술력, 국내외 유수기업 컨설팅의 풍부한 경험과 탄탄한 기술력으로 고객의 성공적인 오픈소스 플랫폼 구축과 응용 프로그램 전체 범위의 서비스를 제공하고 있습니다. 락플레이스는 레드햇코리아로부터 Elite Business Associate/Advanced Business Parter/채널 어워드 한국 탑 파트너/FY15 champion 등을 수상한 파트너며, Microsoft의 Microsoft Cloud Solution Partner(CSP)로서 함께하고 있습니다.
'OSS on Azure > Database' 카테고리의 다른 글
불붙은 클라우드 기반 DW 성능 경쟁 - 애저가 아마존 Redshift를 앞서가나요 ~ ~ (0) | 2021.03.02 |
---|---|
애저 HDInsight 새소식, 아파치 스파크 2.3 지원됩니다! 스파크 기반 머신 러닝, IoT 등 활용 시나리오가 더욱 풍성 ~ (0) | 2021.02.24 |
Azure Data Factory 버전 2 발표! 마우스 드래그앤드롭으로 70개가 넘는 소스에서 데이터 수집 및 통합 (0) | 2021.02.24 |
SQL 서버를 위한 애저 백업 서비스 ~ 프리뷰부터 설레는 이유 (0) | 2021.02.24 |
MySQL, PostgreSQL 서비스를 위한 VNet 서비스 ~ DB 서비스를 위한 네트워크 보안의 기본 (0) | 2021.02.23 |