본문 바로가기

PRODUCT/Solutions

기업의 AX 전환, 이제 OpenShift AI로 단숨에!

2024년 기업의 디지털 전환(DX, Digital Transformation) 전략에서 AI의 중요성은 그 무엇보다 높습니다. 일각에서는 AI 전환(AX, AI Transformation)의 시대라고 말하기도 합니다. 이런 분위기 속에서 많은 조직이 AI/ML 그리고 생성형 AI 관련 프로젝트 추진의 효율을 높이는 방안을 찾아 나서고 있습니다. 관련해 최근 주목받는 플랫폼이 있습니다. 바로 OpenShift AI입니다. 온프레미스, 하이브리드 클라우드, 멀티 클라우드, 엣지 등 다양한 위치에서 모델을 훈련하고 배포하는 데 있어 새로운 효율을 약속하는 것이 바로 OpenShift AI입니다. 이번 포스팅에서는 OpenShift AI 플랫폼이 필요한 이유와 OpenShift AI의 개념과 최신 개선 사항을 소개하겠습니다.

 

모델 훈련과 최적화에서 반복 작업과 실험이 중요한 이유

 

AI/ML, 생성형 AI 프로젝트는 매우 빠른 주기로 작업을 하면서 모델을 최적화하는 과정이라 할 수 있습니다. 따라서 생산성과 업무 효율은 얼마나 빨리 훈련과 최적화 작업을 반복할 수 있는 지에 따라 달라집니다. 빠른 반복이 중요한 이유는 무엇일까요?

 

모델 훈련과 최적화 과정에서 반복 작업이 중요한 이유는 여러 가지가 있습니다. AI 모델은 처음부터 완벽하지 않기 때문에 지속적인 실험과 반복을 통해 성능을 개선할 수 있습니다. 테스트를 반복하는 가운데 모델의 정확도, 정밀도, 재현율을 높일 수 있으며, 다양한 하이퍼파라미터 설정, 데이터 전처리 기법, 모델 구조 등을 테스트하여 최적의 조합을 찾을 수 있습니다.

 

다양한 테스트를 통해 모델의 약점을 발견하고 이를 보완하는 것도 반복 작업을 하는 이유입니다. 예를 들어 특정 유형의 데이터에서 모델이 오작동하는 경우, 추가적인 데이터 수집이나 모델 구조 변경 등을 통해 문제를 해결할 수 있습니다. 또한, 실험을 통해 데이터의 품질이나 양에 따른 모델의 성능 변화를 파악할 수 있습니다.

 

MLOps 체계를 갖추는 것이 어려운 이유

 

데이터 과학자와 AI 개발자가 빠르게 작업을 반복하며 모델을 최적화하고 개선할 수 있는 환경을 제공하는 것은 사실 쉽지 않습니다. GPU 서버 인프라, 모델을 배포해 훈련과 최적화를 할 작업 환경, 각종 도구 등 고려해야 할 것이 많습니다. 많은 조직이 MLOps 플랫폼 구축과 운영에 있어 시행착오를 겪는 이유입니다.

 

그렇다면 MLOps 플랫폼은 어떤 요건을 충족해야 할까요? 먼저 자동화된 파이프라인 구축이 필요합니다. 모델 훈련, 평가, 배포 등의 과정을 자동화하여 반복 작업을 효율적으로 수행할 수 있습니다. 이를 통해 인적 오류를 줄이고 작업 속도를 높일 수 있습니다.

 

효율적인 자원 관리도 필요합니다. 클라우드 또는 온프레미스 환경에서 필요한 컴퓨팅 자원을 유연하게 할당하고 관리할 수 있어야 합니다. GPU 자원을 효과적으로 활용하여 모델 훈련 속도를 높이는 것도 중요합니다.

 

다음으로 통합된 데이터 관리 시스템이 필요합니다. 데이터 수집, 전처리, 저장, 관리 과정을 통합하여 데이터의 일관성을 유지하고 실험에 필요한 데이터를 신속하게 접근할 수 있어야 합니다. 데이터 버전 관리 시스템을 통해 데이터의 변경 내역을 추적하고, 재현 가능한 실험을 보장할 수 있습니다.

 

마지막으로 협업 도구가 필요합니다. 데이터 과학자, 개발자, 운영 팀 간의 원활한 협업을 지원하는 도구와 플랫폼이 필요합니다. Git 같은 버전 관리 시스템, Jira 같은 프로젝트 관리 도구, Slack 같은 커뮤니케이션 도구(Slack 등)로 팀 간의 소통과 협업을 강화할 수 있습니다.

 

MLOps 구축의 지름길을 제시하는 OpenShift AI

 

OpenShift AI는 조직이 빠르고 안정적으로 MLOps 체계를 갖추는 데 큰 기여를 할 수 있는 플랫폼입니다. 실제로 OpenShift AI는 인프라 및 플랫폼 엔지니어와 AI/ML 전문가에게 여러 가지 혜택을 제공합니다.

 

OpenShift AI를 통해 인프라 및 플랫폼 엔지니어는 유연성과 확장성을 데이터 과학자나 AI 개발자에게 제공할 수 있습니다. 온프레미스, 퍼블릭 클라우드, 엣지 등 다양한 환경에서 AI 모델을 개발, 배포, 관리할 수 있습니다. 또한, 확장 가능한 인프라를 제공하여 필요에 따라 자원을 유연하게 할당하고, 대규모 데이터 처리와 모델 훈련을 지원할 수 있습니다.

 

데이터 과학자와 AI 개발자는 OpenShift AI 환경에서 통합된 AI/ML 워크플로우를 통해 더 효율적으로 작업을 할 수 있습니다. 예를 들어 데이터 수집, 모델 훈련, 배포, 모니터링 등 AI/ML 워크플로우 전반을 통합하여 관리할 수 있습니다. 그리고 OpenShift AI는 Kubeflow, Jupyter, PyTorch 등 다양한 AI/ML 도구를 지원합니다. 따라서 데이터 과학자나 AI 개발자는 평소 사용한 손에 익은 도구로 모델 개발과 배포를 할 수 있습니다.

 

OpenShift AI는 보안 담당자를 위한 기능도 제공합니다. 보안 팀은 OpenShift AI로 AI 관련  보안과 컴플라이언스를 강화할 수 있습니다. 내장된 보안 기능과 규제 준수 지원을 통해 안전하게 AI/ML 작업을 수행할 수 있으며, 데이터 프라이버시와 보안을 강화하여 민감한 데이터를 보호할 수 있습니다.

 

2024년 5월 발표된 OpenShift AI 최신 기능

 

OpenShift AI는 기업의 요구를 빠르게 수용하며 진화 중입니다. 관련해 가장 최근에 발표된 개선 사항을 알아보겠습니다. 2024년 5월 발표된 OpenShift AI의 최신 기능은 기업의 AI/ML과 생성형 AI 모델을 최적화하여 애플리케이션에 배포하는 데 여러 가지 도움을 줍니다.

 

첫째, 엣지에서의 모델 서비스가 확장되었습니다. 단일 노드 OpenShift를 사용하여 AI 모델을 원격 위치로 배포할 수 있어 엣지 환경에서도 AI 기능을 활용할 수 있습니다. 간헐적이거나 제한된 네트워크 환경에서도 안정적인 추론 기능을 제공하여 유연한 운영을 지원합니다.

 

둘째, 향상된 모델 서비스가 제공됩니다. KServe를 통해 다양한 모델 서버를 지원하고, 예측 및 생성형 AI 모델을 효율적으로 관리할 수 있습니다. 여러 사용 사례에 대해 단일 플랫폼에서 예측 및 생성형 AI를 실행하여 비용 절감과 운영 단순화를 실현할 수 있습니다.

 

셋째, 분산 워크로드 지원이 강화되었습니다. Ray와 KubeRay를 사용하여 분산 워크로드를 관리하고, 여러 클러스터 노드를 활용하여 데이터 처리와 모델 훈련 속도를 높일 수 있습니다. CodeFlare를 통해 태스크 오케스트레이션과 모니터링을 단순화하여 효율적인 워크로드 관리를 지원합니다.

 

넷째, 개발 도구와 워크벤치가 개선되었습니다. VS Code, RStudio 등의 통합 개발 환경(IDE)과 추가 워크벤치를 제공하여 데이터 과학자들이 더 효율적으로 모델을 개발할 수 있도록 지원합니다. 다양한 사용 사례와 모델 유형에 대한 유연성을 제공하여 생산성을 높입니다.

 

다섯째, 모델 모니터링 시각화 기능이 강화되었습니다. AI 모델의 성능 및 운영 지표에 대한 모니터링과 시각화를 통해 모델의 상태를 쉽게 파악하고, 필요한 조치를 신속하게 취할 수 있습니다.

 

여섯째, 하드웨어 가속기 지원이 강화되었습니다. 다양한 하드웨어 가속기를 구성하고, 특정 워크로드에 적합한 가속기 유형을 선택할 수 있는 유연성을 제공합니다. GPU 등의 고성능 컴퓨팅 자원을 효과적으로 활용하여 모델 훈련과 추론 속도를 높일 수 있습니다.

 

이와 같은 신기능을 통해 OpenShift AI는 기업이 AI/ML 모델, 생성형 AI 모델을 신속하게 최적화하고, 애플리케이션에 배포하여 경쟁력을 강화하는 데 중요한 역할을 합니다.

 

AX 전환을 가속하는 플랫폼

 

살펴본 바와 같이 OpenShift AI는 조직의 AI 전환을 가속하는 데 필요한 MLOps 체계 정립부터 하이브리드 멀티 클라우드와 엣지 컴퓨팅 전략 지원 등을 단일 플랫폼에서 수행할 수 있습니다. 이를 통해 기업은 AI/ML, 생성형 AI를 조직의 다양한 서비스와 업무 애플리케이션에 적용할 수 있습니다. OpenShift AI 도입과 운영이 궁금하다면 락플레이스가 도움을 드리겠습니다.