본문 바로가기

OSS on Azure/클라우드 운영 팁

플랫폼 IoT 장치/태그가 쏟아내는 시계열 데이터, 이제 비용 걱정 없이 오래오래 보관이 가능 - 머신 러닝 좀 해볼 만 하겠네...

*글 최초 발행일자: 2018.04.23*

 

시계열 데이터(time series data) 분석! 아마 사물인터넷(IoT)가 떠오를 것입니다. IoT 장치나 태그에서 생성하는 데이터는 크기가 작지만 연속해서 나옵니다. 그래서 IoT 관련 데이터 분석을 이야기할 때 실시간 데이터 스트림 처리 기술이 자주 등장합니다. 마이크로소프트가 애저에 돈 걱정 없이 시계열 데이터를 몇십 년 씩 보관해 머신 러닝, 빅 데이터 분석을 수행할 방법을 제시했습니다! 

 

스토리지 비용 걱정 없는 Azure Time Series Insight 서비스

 

마이크로소프트는 지난해 애저 타임 시리즈 인사이트(Azure Time Series Insight)라는 서비스를 선보였습니다. 이 서비스는 IoT 장치나 태그에서 생성하는 시계열 데이터를 저장, 보안 및 관리, 분석을 클라우드 상에서 간단히 할 수 있도록 고안되었습니다. 

최근 마이크로소프트는 애저 타임 시리즈 인사이트 관련해 2가지 주목할만한 기능을 발표했습니다. 첫 번째는 비용 효율적인 장기 보관 스토리지 이용이 가능해진 것이고, 두 번째는 시계열 데이터 분석과 시각화 관련 사용자 경험이 크게 개선된 것입니다. 

 

바로 쓸 것은 웜 스토리지, 오래 싸게 저장할 것은 콜드 스토리지

 

시계열 데이터는 가능한 오랜 기간 축적된 정보의 양이 많을수록 분석에 유리합니다. 오일 & 가스, 전력 및 유틸리티, 제조, 빌딩 관리 등 IoT에서 새로운 비즈니스 통찰력을 확보할 때 아무래도 데이터가 많으면 좋습니다. 시계열 분석을 통해 추이를 파악하고, 다양한 비교 분석을 통해 그동안 못 보던 것을 보려면 결국 데이터를 많이 쌓아 두어야 하죠. 하지만 데이터란 것이 아무리 크기가 작아도 오랜 기간 쌓다 보면 스토리지 비용이 만만치 않죠. 그렇다고 최근 데이터만 가지고 있을 수도 없죠. 

그래서 마이크로소프트가 방법을 제시합니다. 애저 스토리지와 통합을 한 것인데요, 이 덕에 시계열 데이터 저장 비용 구조가 매우 경제적으로 변했습니다. 가령 인터랙티브 하게 분석을 해야 하는 최근 데이터는 애저 스토리지의 웜 레이어에 저장합니다. 그리고 자주 쓰이지 않는 오래된 데이터는 콜드 레이어에 담아 둡니다. 

아마도 많은 기업이 웜 레이어에는 30~120일 정도 기간의 시계열 데이터를, 콜드 레이어에는 1~20년 정도의 과거 데이터를 쌓아 두는 선택을 할 것 같습니다. 콜드 레이어에 데이터를 두어도 장치나 태그 관련 쿼리를 자유롭게 할 수 있어서요, 백업 데이터를 다시 마운트 해 처리하는 것과 달리 분석 편의성이 매우 높습니다. 즉, 비용 이점을 누리면서 분석 편의성도 유지하는 것이죠. 다음 그림은 웜과 콜드 레이어를 선별적으로 사용하는 예를 아키텍처로 그려 본 것입니다. 

 

애저 타임 시리즈 인사이트는 처음 나왔을 때부터 '탐색' 기능을 통해 데이터 시각화 기능을 제공했습니다. 차트 보기만 되다 보니 약간 아름답지 않다 싶었는데, 이번에 히트맵, 테이블 등이 더해지면서 그림이 예뻐졌습니다. 데이터 과학자라면 데이터 분석과 시각화 관련 사용자 경험을 크게 신경 쓰지 않겠죠. 

하지만 실제 공장이나 시설 현장에서 운영을 담당한다면 이야기가 다르죠. 운영자나 프로세스 엔지니어에게 시계열 데이터에서 뭔가 원하는 분석 정보를 본다는 것은 남의 이야기처럼 들릴 수 있습니다. 이번에 탐색 기능의 사용자 경험이 보강되면서 애저 타임 시리즈 인사이트를 쓰면 운영자나 프로세스 엔지니어도 나름 참조할 것이 많은 분석 정보를 스스로 그려볼 수 있게 되었습니다. 

 

 

 

머신 러닝, 분석 서비스와 연계도 간단

데이터 과학자에게도 애저 타임 시리즈 인사이트는 큰 선물입니다. 더 많은 데이터로, 더 정교하고 복잡한 분석을 해볼 수 있는 것은 기본이고, 요즘 유행하는 머신 러닝을 통해 운영자와 프로세스 엔지니어의 업무 부담을 더 효율적으로 개선해 그들을 기쁘게 할 수도 있습니다. 

애저 타임 시리즈 인사이트는 장치와 태그 그리고 타임스탬프 속성을 기반으로 아파치 파케이(Apache Parquet) 파일 형식에 맞춰 데이터를 저장합니다. 오픈 소스 기반 표준인 컬럼 기반 저장 포맷을 사용하기 때문에 애저 데이터브릭스(Azure Databrics) 같은 도구와 통합이 쉽습니다. 더불어 애저 머신 러닝 스튜디오, 주피터 노트북 등 머신 러닝 도구와 통합도 쉬워 장치나 설비의 상태를 예측하고 이를 토대로 유지 관리를 자동으로 할 수 있는 모델을 작성해 시계열 데이터로 트레이닝을 하기도 편합니다. 

사무실에서 근무하는 이들도 IoT 장치나 태그의 시계열 정보를 원하는 방식으로 바라보고 시각화할 수 있습니다. 애저 타임 시리즈 인사이트를 통해 관리하는 시계열 데이터를 엑셀이나 파워 BI를 통해 원하는 데로 다룰 수 있습니다. 

IoT나 태그 관련 시계열 데이터 저장, 관리 그리고 빅 데이터 분석과 머신 러닝을 클라우드 환경에서 구현해보고 싶다면? 네, 락플레이스로 문의 바랍니다.

 

*이 외에도 락플레이스의 최신 뉴스레터 소식(2021~) 을 받아보고 싶으시다면? *

락플레이스 뉴스레터 구독하기 click

 

 

*락플레이스 1:1 문의 바로가기*

 1:1 문의 바로가기 click

 

 락플레이스는 2005년에 출범하여 대한민국 리눅스의 역사와 성장을 함께 해온 오픈소스 전문 기업으로 국내 최다 엔지니어, 국내 최고 기술력, 국내외 유수기업 컨설팅의 풍부한 경험과 탄탄한 기술력으로 고객의 성공적인 오픈소스 플랫폼 구축과 응용 프로그램 전체 범위의 서비스를 제공하고 있습니다. 락플레이스는 레드햇코리아로부터 Elite Business Associate/Advanced Business Parter/채널 어워드 한국  파트너/FY15 champion 등을 수상 파트너며, Microsoft Microsoft Cloud Solution Partner(CSP)로서 함께하고 있습니다.