하이브리드 멀티 클라우드 전략을 수립할 때 기업이 반드시 해결책을 마련해야 하는 과제가 있습니다. 바로 프로덕션 환경에서 발생하는 각종 문제를 얼마나 빨리 파악해 해결할 것인지 구체적인 자동화 기반의 운영 방안을 마련하는 것입니다. 이게 중요한 이유는 DevOps 파이프라인에 따라 애플리케이션 개발, 배포, 운영이 이루어지는 하이브리드 멀티 클라우드 환경에서 애플리케이션 성능 저하와 장애 발생 문제를 해결하는 것이 어렵기 때문입니다.
2023년 DevOps Automation Pulse 설문조사에 따르면 소프트웨어 엔지니어가 프로덕션 애플리케이션의 문제를 해결하는 데 평균 9시간이 걸립니다. 이는 시간당 화물 예약이 15,000건에 달하는 경쟁이 치열한 시장에서는 매우 긴 시간입니다. 특히, 정지 시간당 비용이 최대 500만 달러에 이르거나 중요한 제로데이 취약점이 적극적으로 악용되는 상황에서는 기업에 막대한 손실을 초래할 수 있습니다.
85%의 조직이 문제 해결과 DevOps 자동화를 위해 관찰 가능성(observability) 도구와 및 보안 데이터를 사용하는 데 어려움을 겪고 있습니다. 이는 데이터가 사일로화되어 있어 문제의 근본 원인을 파악하고 이를 해결 시나리오에 정확히 매핑하는 것이 어렵기 때문입니다. 데이터를 효과적으로 활용하지 못하면 문제 해결에 많은 시간이 소요되고, 이로 인해 기업은 높은 비용 손실, 고객 신뢰도 하락, 보안 취약점 악용으로 인한 추가적인 위험을 안고 가야 합니다. 데이터를 통합하고 자동화된 솔루션을 도입하여 문제를 신속하게 해결하는 것이 중요합니다.
그렇다면 하이브리드 멀티 클라우드 환경에 맞는 애플리케이션 성능 저하와 장애 발생 문제를 해결하는 방안은 어떻게 찾아야 할까요? 관련해 최근 좋은 소식이 하나 발표되었습니다. 바로 Red Hat과 Dynatrace의 협력입니다.
Red Hat Ansible Automation Platform, Dynatrace Davis AI, 그리고 Dynatrace 관측 가능성 및 보안 플랫폼의 긴밀한 통합은 시스템을 지속적으로 모니터링하고 분석하여 필요한 조정을 자동으로 수행하는 폐쇄 루프 교정(closed-loop remediation)을 구현할 수 있는 가능성을 열었습니다. Red Hat 과 Dynatrace을 함께 적용하면 다음 프로세스를 자동화할 수 있습니다.
- 문제 감지
- 인시던트 관리
- 근본 원인 파악 및 적절한 대책 마련
- 시정 조치 실행
- 관련 이해관계자 파악
위 프로세스를 자동화하면 중단을 최소화하고 MTTR(평균 복구 시간)을 크게 줄일 수 있습니다. 또한, DevSecOps와 SRE 팀이 효율적으로 협력하여 생산성을 높일 수 있도록 도와줍니다.
Red Hat 및 Dynatrace 통합 개요
Red Hat과 Dynatrace 간의 전략적 파트너십과 기술 통합은 여러 문제를 효과적으로 해결하는 새로운 길을 제시합니다. 구체적으로 알아보자면 먼저 로그, 지표, 추적, 그리고 비즈니스 데이터를 손쉽게 수집하여 정확한 통찰력을 얻을 수 있습니다. 이를 통해 상황에 맞는 토폴로지를 식별하고, Grail 데이터 레이크하우스를 통해 데이터와 환경을 전체적으로 파악할 수 있습니다. 또한, Davis AI로 근본 원인 분석을 통해 문제의 실체 및 근본 원인을 정확하게 찾아낼 수 있으며, Davis AI의 예측 분석을 활용하여 프로덕션 환경이 중단되기 전에 문제를 해결하여 가동 중지 시간을 줄일 수 있습니다.
한편 Red Hat Automation Controller와 통합을 통해 자동화 및 문제 해결을 위한 작업 템플릿을 트리거할 수 있습니다. 이는 스마트 사후 확인을 위해 작업 상태를 검색하고, 실패 시 작업을 다시 실행할 수 있게 해줍니다. 또한, Red Hat Event-Driven Ansible과 통합을 통해 Red Hat의 유연한 룰북(rulebook) 시스템을 활용하여 문제 범주 또는 취약점 식별 같은 이벤트 데이터를 반복적인 작업을 자동화하기 위해 정의한 작업 템플릿에 매핑할 수 있습니다. 참고로 템플릿 매핑이란 이벤트 데이터의 특정 요소를 작업 템플릿의 특정 변수와 연결하는 프로세스를 말합니다. 예를 들어 오류 메시지의 유형에 따라 템플릿이 특정 문제 해결 스크립트를 실행하도록 매핑할 수 있습니다.
이제 Red Hat과 Dynatrace 간의 통합이 어떻게 운영 현장에서 문제를 해결하고 자동화를 더욱 효과적으로 수행할 수 있도록 도울 수 있는 지 가상의 시나리오를 통해 살펴보겠습니다.
구현 시나리오 예시 #1: Dynatrace와 Red Hat Ansible Automation Controller를 활용한 실패한 Canary 릴리스 문제 해결
첫 번째로 살펴볼 시나리오는 Dynatrace와 Red Hat Ansible Automation Controller를 사용하여 실패한 Canary 릴리스의 문제를 해결하는 과정입니다. 새로운 서비스 버전 배포, 기능 플래그 활성화 등 환경에 변경이 발생하면 구성 변경 이벤트가 생성됩니다. 이러한 이벤트는 Canary 릴리스 실패와 같은 문제 상황에서 발생하는 경우가 많습니다. 개발자 또는 SRE는 이벤트에 대한 작업 설명, 소스, 해당 Red Hat Ansible 작업 템플릿을 포함하는 정보를 배포 파이프라인에 추가합니다. 이 정보는 변경 사항을 해결하거나 롤백하는 데 사용됩니다. Dynatrace Davis AI는 문제를 식별하고 분석하여 근본 원인을 찾아냅니다. Davis AI는 로그, 메트릭, 추적 데이터 등 다양한 데이터 소스를 활용하여 문제의 근본 원인을 파악합니다. Davis AI는 구성 변경 이벤트를 적절한 엔터티(Entity)에 매핑합니다. 엔터티(Entity)는 애플리케이션, 서비스, 인프라 구성 요소 등과 같은 문제와 관련된 개체를 의미합니다. 이 매핑을 통해 문제의 범위를 빠르게 파악하고 해결책을 집중적으로 적용할 수 있습니다.
Dynatrace 워크플로 앱은 여러 도구를 통합하여 문제를 신속하고 효율적으로 해결함으로써 시스템 가동 중지 시간과 평균 복구 시간(MTTR)을 줄이는 데 도움을 줍니다. 자세히 살펴보자면 Red Hat Ansible Automation Platform을 사용하여 문제를 자동으로 진단하고 해결합니다. 이를 통해 문제 해결 시간을 단축하고 인적 오류를 줄일 수 있습니다. ServiceNow와 같은 도구를 사용하여 인시던트를 추적하고 관리합니다. 이를 통해 문제 해결 프로세스를 투명하고 효율적으로 유지할 수 있습니다. Slack, Microsoft Teams, 이메일을 통해 관련자에게 문제 및 해결 상태에 대한 알림을 전송합니다. 이를 통해 모든 관련자가 최신 정보를 파악하고 협업을 원활하게 진행할 수 있습니다.
특히, Dynatrace 워크플로 앱은 여러 유용한 기능을 제공합니다. Davis AI 문제 트리거를 사용해 활성 상태, 오류 범주, 릴리스 단계 또는 환경과 같은 추가 태그에 대한 필터를 설정하여 특정 문제에 대한 워크플로를 실행할 수 있습니다. Davis AI가 식별한 근본 원인 엔터티(Entity)가 있는 이벤트에 대해 워크플로를 실행할 수 있습니다. 그리고 Slack을 통해 관련 팀에 소유권 정보를 전달하는 기능도 지원합니다. 규정 준수 및 감사 목적으로 ServiceNow 티켓을 생성하고 수정 세부 사항과 함께 업데이트하는 것도 주목할 특징입니다.
Red Hat Ansible Automation Controller로 문제 해결의 자동화 수준을 높일 수도 있습니다. 시스템에서 문제가 발생했다고 가정해 보겠습니다. Dynatrace AI는 문제를 식별하고 분석하여 문제 이벤트를 생성합니다. Red Hat Ansible Automation Controller는 문제 이벤트를 수신합니다. Davis AI 문제 이벤트에서 식별된 작업 템플릿을 찾습니다. 예를 들어 문제가 Canary 릴리스 실패와 관련된 경우 Canary 가중치 재설정 작업 템플릿이 트리거될 수 있습니다.
다음 과정으로 Red Hat Ansible Automation Controller는 ExtraVars를 통해 Ansible 작업 템플릿에 매개변수를 전달합니다. 템플릿은 Red Hat Ansible Automation Controller 내에서 실행되어 문제를 해결합니다.
문제 해결 과정에 대한 세부 정보는 Dynatrace 문제와 연결됩니다. 해결 정보에는 사용된 작업 템플릿, ExtraVars, 실행 결과 등이 포함됩니다. 해결 정보는 ServiceNow 티켓에 문서화됩니다.
특정 간격이 지난 후 또는 문제가 해결된 후 두 번째 검증 워크플로가 트리거됩니다. 이 워크플로는 Ansible 작업의 성공 여부를 확인합니다. 오류가 발생한 경우 작업을 다시 시작합니다. 문제 해결 결과는 이해관계자에게 알려집니다. 이메일, Slack 또는 기타 메시징 도구를 통해 알림이 전송될 수 있습니다. ServiceNow 인시던트는 문제 해결 결과를 반영하여 업데이트되거나 종료됩니다.
구현 시나리오 예시 #2: Dynatrace와 Red Hat Event-Driven-Ansible을 사용한 유연한 규칙 기반 문제 해결
Dynatrace와 Red Hat Event-Driven Ansible의 통합은 감지된 문제 해결과 보안 취약점 완화에 높은 유연성을 제공합니다. Dynatrace 쿼리 언어(DQL)는 Grail 스토리지에 저장된 데이터를 기반으로 데이터 탐색, 패턴 발견, 이상치 식별, 통계 모델링 등을 수행할 수 있는 강력한 도구입니다. 이를 통해 자동화 및 수정 프로세스를 시작하는 워크플로 트리거를 정의할 수 있으며, 이벤트 페이로드에는 문제 세부 사항, 취약점 세부 사항, 근본 원인, 영향을 받는 엔터티(Entity) 등이 포함됩니다. 또한, Dynatrace Davis의 예측 및 인과 AI는 기존 문제 분석을 넘어 부하가 높은 상황을 예측하고 가동 중지 시간을 예방하기 위한 변경 및 해결 시나리오를 시작할 수 있습니다.
Dynatrace 소유권 정보는 관련 이해관계자를 쉽게 식별하고 정보를 전달하며, 고위험 보안 또는 인프라 문제를 에스컬레이션할 수 있습니다. 이를 통해 Jira나 ServiceNow 같은 시스템에서 상황에 맞는 티켓을 생성하여 추적성과 규정 준수를 보장할 수 있습니다. Dynatrace Workflows 앱은 데이터를 강화하고, 관련 보안 취약성이나 문제를 필터링하며, 적절한 사용자에게 알리고, 관련 데이터를 Red Hat Ansible Automation Platform에 전달합니다.
Red Hat Event-Driven Ansible은 룰북을 활용하여 이벤트 소스와 적절한 플레이북을 매핑하는 강력한 기능을 제공합니다. 이를 통해 소프트웨어 엔지니어, SRE, DevOps 팀은 광범위한 자동화 및 문제 해결 매핑을 정의할 수 있습니다. 서비스 재시작, 잘못된 배포 롤백, 취약한 구성 요소 패치, 선제적 확장 또는 축소와 같은 다양한 옵션을 통해 문제가 발생하기 전에 예방하거나 비용을 절감할 수 있습니다.
Red Hat Automation Platform용 Dynatrace 컬렉션과 결합된 Ansible 규칙서는 Event-Driven Ansible 자동화를 위한 프레임워크를 제공하여, CPU 사용량 또는 디스크 사용량 임계값을 기반으로 사용자 지정 경고를 설정하고, 해당 작업 템플릿에 매핑하여 유연한 인프라 자동화 및 교정을 수행할 수 있습니다.
이상으로 Red Hat Ansible Automation Platform, Dynatrace Davis AI, Dynatrace 관측 가능성 및 보안 플랫폼의 통합이 프로덕션 환경의 자동화 수준을 어떻게 높일 수 있는지 알아보았습니다. Red Hat 기반 자동화를 적용했거나, Dynatrace 기반 관찰 가능성 플랫폼을 사용 중이라면? 두 기술의 통합을 진지하게 고민할 때가 된 것 같습니다. 더 자세한 내용이 궁금하다면 락플레이스가 도움을 드리겠습니다.
'PRODUCT > Virturalization' 카테고리의 다른 글
인프라 현대화를 넘어 애플리케이션 현대화까지 이어지는 지름길을 제시하는 ‘OpenShift Virtualization‘ (1) | 2024.12.17 |
---|---|
OpenShift: 컨테이너와 VM, 이제 하나의 플랫폼에서 통합 관리가 가능하다면? (0) | 2024.06.05 |
Red Hat OpenShift Virtualization 적용을 위한 레퍼런스 아키텍처와 가이드 문서를 제공하는 숨은 주역 (0) | 2024.01.17 |
[토막 상식] 레드햇 스토리지로 풀어본 소프트웨어 정의 스토리지의 개념과 필요성 (0) | 2018.06.03 |
쿠버네티스 환경에 어울리는 보안 접근 제어 ~ 레드햇이 Vault Operator 프로젝트를 시작합니다! (0) | 2018.05.02 |