본문 바로가기

OSS on Azure/Database

하둡 애플리케이션을 위한 가장 경제적인 선택 - 클라우드 오브젝트 스토리지에서 Data Lake 운영

*글 최초 발행일자: 2018.07.02*

 

하둡 커뮤니티에서 가장 경제적인 스토리지 인프라 운영 방안으로 꼽는 것은? 네, 클라우드 서비스 사업자의 오브젝트 스토리지로 데이터 레이크를 운영하는 것입니다. 관련해 하둡 커뮤니티에서 최고로 꼽는 것은 ADL(Azure Data Lake) 스토리지입니다. ADL만 해도 경쟁력이 충분한데 마이크로소프트에서 ADL Gen2 프리뷰로 제대로 된 데이터 레이크 전용 클라우드 스토리지 아키텍처를 제시해 화제입니다. 

다음 자료는 호튼웍스에서 작성한 것인데요. 클라우드 스토리지 관련 선택지를 보여 줍니다. 성능과 최적화 면에서 ADL은 최고죠. 

 

클라우드 오브젝트 스토리지를 이용할 경우 성능이 문제가 되곤 합니다. 그 이유는 하둡 파일시스템(HDFS)을 추상화하기 때문이죠. ADL Gen2는 이런 문제를 근본적으로 해결하는 아키텍처를 제시합니다.

 

 

자 다음 그림을 보시죠. 많은 경우 하둡 애플리케이션은 클라이언트의 하둡 파일시스템 드라이버를 통해 create, open, rename 등의 작업을 에뮬레이션합니다. 이 경우 문제는 너무 많은 REST API 요청을 처리해야 한다는 것입니다. 이는 클라우드 오브젝트 스토리지의 경우 네임스페이스를 통해 폴더를 관리하지 않기 때문입니다. ADL Gen2의 경우 클라이언트에서 이루어지던 에뮬레이션 작업을 서버로 옮겨 오는 구조를 택했습니다. 클라이언트는 BLOB REST API 또는 ADL Gen2 API를 통해 데이터에 직접 접근할 수 있습니다. 또한, ADL Gen2는 성능을 보장하는 가운데 클라우드 규모의 확장성을 지원하기 위해 네임스페이스 기능이 추가되었습니다. 네임스페이스를 통해 계층적으로 파일과 폴더가 관리된다는 것입니다. 따라서 파일 삭제와 카피 같은 작업을 할 때 불필요한 API 호출을 줄일 수 있습니다. 

 

 

다음 그림은 하둡 클라우드 스토리지 진화 방향에 대한 호튼웍스의 전망인데요, 결국 추상화 계층을 통한 작업이 아니라 오브젝트 스토리지와 직접 하둡 애플리케이션 연결되는 그런 구조로 발전하는 것이 빅 데이터 커뮤니티가 원하는 것이라 할 수 있습니다. 이 바람에 가장 가깝게 구현된 기술이 ADL Gen2가 아닐까 합니다. 

 

보안성도 언급하지 않을 수 없는데요, ADL Gen2의 경우 애저 액티브 디렉토리가 통합됩니다. 따라서 RBAC 기반 접근 제어가 한결 간편해집니다. 여기에 ADL Gen2가 지원하는 POSIX 기반 ACL 기능을 이용하면 파일과 폴더 수준까지 접근 제어를 할 수 있습니다. 


ADL Gen2에 대한 자세한 내용은 관련 문서나 마이크로소프트 채널9에 올라온 영상을 참조 바랍니다. 

 

*이 외에도 락플레이스의(2021~) 최신 뉴스레터 소식을 받아보고 싶으시다면? *

락플레이스 뉴스레터 구독하기 click

 

 

*락플레이스 1:1 문의 바로가기*

 1:1 문의 바로가기 click

 

 락플레이스는 2005년에 출범하여 대한민국 리눅스의 역사와 성장을 함께 해온 오픈소스 전문 기업으로 국내 최다 엔지니어, 국내 최고 기술력, 국내외 유수기업 컨설팅의 풍부한 경험과 탄탄한 기술력으로 고객의 성공적인 오픈소스 플랫폼 구축과 응용 프로그램 전체 범위의 서비스를 제공하고 있습니다. 락플레이스는 레드햇코리아로부터 Elite Business Associate/Advanced Business Parter/채널 어워드 한국  파트너/FY15 champion 등을 수상 파트너며, Microsoft Microsoft Cloud Solution Partner(CSP)로서 함께하고 있습니다