본문 바로가기

PRODUCT/Others

AI 전략 강화의 핵심! Dynatrace를 통한 AI 인프라와 플랫폼 관찰 가능성(Observability) 확보

 기업의 AI 투자 속도가 최근 빨라지고 규모가 커지고 있습니다. 모든 길은 AI로 통한다고 해도 과하지 않을 정도입니다. 실제로 요즘 모든 디지털 전환 전략의 중심에 AI가 있습니다. 이런 흐름은 생성형 AI(Generative AI)가 상징하는 초거대 모델이 주류가 되면서 더욱 거세지고 있습니다.

 

없어서 못사는 AI 컴퓨팅 리소스

 

수요 증가는 공급 부족으로 이어집니다. 업종과 조직 규모를 떠나 AI가 모두의 관심사가 되면서 AI 모델 훈련과 추론에 필요한 컴퓨팅 자원의 공급 부족이 이어지고 있습니다. 빅테크 기업과 글로벌 기업, 대기업은 최신 GPU 확보에 열을 올리다 보니 공급이 수요를 따라가지 못하는 상황이 이어지고 있습니다. AI 컴퓨팅 자원 수요 증가에 발맞추어 주요 클라우드 서비스 사업자는 GPU 기반 인스턴스 상품 강화에 나서고 있습니다.

 

온프레미스, 하이브리드 멀티 클라우드 활용

 

수요 증가와 자원 부족 현상이 이어지는 가운데 기업의 AI 컴퓨팅 환경은 자연스럽게 하이브리드 멀티 클라우드 환경으로 발전하고 있습니다. 예를 들어 볼까요. AI 기반 서비스나 디지털 제품을 조직원이나 고객에게 제공하는 프로덕션 환경은 온프레미스에 구축하고 데이터 과학자, 개발자 등 여러 사용자의 자원 요구가 급증하는 개발과 최적화 단계는 퍼블릭 클라우드의 GPU나 TPU 같은 AI 전용 자원을 필요한 때 원하는 만큼 사용합니다.

 

AI 컴퓨팅 자원은 일반적인 엔터프라이즈 컴퓨팅 워크로드에 비해 더 큰 비용이 듭니다. 직접 사내에 GPU 서버와 고가의 올플래시 어레이(AFA) 스토리지와 초고속 네트워크 장비를 도입해 클러스터를 구축하려면 큰 비용이 듭니다. 퍼블릭 클라우드의 GPU, TPU 인스턴스 가격도 만만치 않습니다. 이처럼 큰 비용이 들다 보니 AI 인프라는 한 시도 자원을 놀릴 수 없습니다. 1년 365일간 매일 24시간 중단 없이 자원을 써야 TCO/ROI 효과를 유지할 수 있습니다. 이런 이유로 AI 인프라의 자원 활용률(Utilization)을 최적의 상태로 유지하는 것을 중요 인프라 관리 지표(KPI)로 삼습니다.

 

이런 목표 달성을 위해 많은 조직이 GPU 잡 스케줄러, MLOps 같은 플랫폼 구축을 중요하게 여깁니다. 이런 플랫폼만 있다면 자원 활용률을 늘 최적의 상태로 유지하는 데 문제가 없을까요? 앞서 언급한 바와 같이 AI 컴퓨팅 자원은 온프레미스, 하이브리드 멀티 클라우드, 엣지 등 다양한 곳에 있습니다. 비용 역시 직접 구축과 함께 사용한 만큼 지불하는 클라우드까지 고려해야 합니다. 따라서 FinOps의 개념을 AI 인프라와 플랫폼 관리에 접목해야 자원 활용률 지표 관리를 더 효율적으로 할 수 있습니다.

 

FinOps + AI 인프라와 플랫폼 관찰 가능성 확보 모범 사례

 

금융과 DevOps가 결합한 개념인 FinOps는 엔지니어링, 개발, 재무 및 비즈니스 팀이 중요한 핵심성과지표(KPI)를 충족하고 서비스 수준 계약을 이행하는 데 큰 도움이 됩니다. FinOps는 AI 자원 투자와 활용에도 긍정적인 영향을 끼칩니다. FinOps 전략을 바탕으로 AI 자원 비용을 관리하고 활용률을 최적화할 수 있습니다. 이를 실행에 옮기려면 전제 조건 하나가 충족되어야 합니다. 바로 AI 인프라와 플랫폼에 대한 관찰 가능성(Observability)입니다.

 

AI 인프라와 플랫폼에 대한 관찰 가능성은 AI 모델 구현, 훈련, 최적화, 배포 및 추론 등 모든 단계에서 리소스 활용도를 모니터링하는 것을 뜻합니다. AI 인프라 관찰 가능성을 통한 비용 최적화는 조직이 AI 투자의 ROI를 이해하고, 비용 효과적인 AI 리소스 활용을 가능케 합니다. 그렇다면 AI 인프라 관찰 가능성은 어떻게 확보할 수 있을까요? 주요 모범 사례를 정리해 보겠습니다.

 

  • 클라우드와 엣지 컴퓨팅 활용: 기업에서 AI 인프라와 플랫폼에 투자를 할 때 반드시 고려해야 하는 것이 보안과 규제입니다. 기업이 하이브리드 컴퓨팅을 추구하는 이유라 할 수 있는데요, AI 인프라와 플랫폼도 마찬가지입니다. 중요 데이터를 다루거나, 민감한 시스템일 경우 사내에 자원이 위치하는 것이 맞습니다. 반면에 유연성과 민첩성이 필요한 개발 단계나 대외 서비스의 경우 클라우드와 엣지 컴퓨팅을 활용하는 것이 시간과 비용 그리고 효율성 측면에서 유리합니다.

 

  • 컨테이너 활용: 컨테이너는 온프레미스와 클라우드를 관통하는 공통 분모입니다. 컨테이너를 잘 활용하면 사내와 사외 경계를 넘어 보편적인 방식으로 애플리케이션을 배포하고 운영할 수 있습니다. AI 모델 구현, 훈련, 추론 같은 작업부터 AI 기능을 부여한 워크로드도 다르지 않습니다. 컨테이너를 활용해 사내와 사외 AI 컴퓨팅 자원과 플랫폼에 모델과 애플리케이션을 종속성 걱정 없이 효율적으로 배포하고 관리할 수 있습니다.

 

  • AI 수명주기 관리: AI 수명주기 관리는 AI 애플리케이션의 개발과 운영 전반을 아우르는 과정으로, 컴퓨팅 자원의 효율적 활용에 큰 영향을 미칩니다. AI 개발 및 훈련에는 대규모의 컴퓨팅 자원, 특히 고가의 GPU 자원이 필요합니다. AI 수명주기를 관리하면 필요한 컴퓨팅 자원을 효율적으로 할당하고, 불필요한 리소스 낭비를 방지할 수 있습니다. AI 애플리케이션의 배포와 운영 과정에서 GPU와 같은 컴퓨팅 자원의 활용도를 지속해서 모니터링하면 리소스가 효과적으로 활용되고 있는지 확인할 수 있습니다. 다음으로 AI 모델과 애플리케이션의 성능을 지속해서 평가하고, 필요한 경우 업데이트나 개선 작업을 해 리소스 활용을 최적화할 수 있습니다.

 

  • 생성형 AI와 다른 기술의 결합: 생성형 AI가 최근 인기를 끌고 있지만, 그 자체로는 모든 문제를 해결할 수 있는 완벽한 해결책은 아닙니다. 이 기술의 진정한 효과는 전통적인 AI/ML 모델의 예측 및 인과(Causal) 역량과 결합할 때 나타납니다. 예측 모델은 과거 데이터를 분석하여 미래 상황을 예측하는 데 사용됩니다. 예측 모델은 패턴을 인식하고, 그러한 패턴을 바탕으로 미래의 이벤트나 결과를 예측합니다. 인과 모델은 특정 사건이나 행동이 발생하는 근본적인 원인과 그 효과를 파악합니다. 이는 상황의 원인과 결과를 보다 명확하게 이해하는 데 도움이 됩니다. 이에 대한 추가 정보는 Dynatrace가 발행한 ‘AI 2024 State’ 보고서를 참조 바랍니다.

 

Dynatrace의 새로운 활용 가치

 

살펴본 바와 같이 기업의 AI 기술 도입이 빠르게 늘면서 AI 서비스를 위한 비용과 자원 효율성 간의 균형을 유지하는 것이 중요해지고 있습니다. AI 관찰 가능성 역량을 바탕으로 한 FinOps 전략을 통해 이러한 균형을 달성하고, AI 투자의 가치를 극대화할 수 있습니다. 이런 효과를 거두려면 Dynatrace 같은 적절한 도구가 필요합니다. Dynatrace를 활용하면 새로운 요구 사항인 AI 인프라와 플랫폼에 대한 관찰 가능성을 확보할 수 있습니다.

 

AI 인프라와 플랫폼에 대한 관찰 가능성을 직접 체험하기 위한 Dynatrace 데모 신청 및 상세 정보를 담은 자료 요청은 락플레이스로 문의 바랍니다.