newsis

  • 페이스북
  • 트위터
  • 유튜브

'먹통' 반성 카카오 "설비부터 서비스 전체 다중화…투자 3배 확대"(종합)

등록 2022.12.07 13:56:33

  • 이메일 보내기
  • 프린터
  • PDF

기사내용 요약

7일 '이프 카카오' 개최…과거 원인 분석·재발방지책 마련·미래 투자 확대
1015 먹통 장애 원인은 이중화 소홀·대응 미흡 꼽아
인프라 하드웨어 설비부터 서비스 앱까지 전체 시스템 개선
향후 5년간 IT 엔지니어링 혁신책 실행…투자금 3배 이상 투입
"인프라 전담 조직·BCP 취약성 진단·DR 삼중화 +α"

[서울=뉴시스]최은수 윤현성 기자 = αα
associate_pic

남궁훈 카카오 비상대책위원회 재발방지대책 공동 소위원장이 7일 개최된 개발자 콘퍼런스 ‘이프 카카오 데브 2022(if kakao dev 2022(이프 카카오)에서 발표를 하고 있다.(사진=카카오 제공) *재판매 및 DB 금지




카카오가 지난 10월15일 SK C&C 판교 데이터센터 화재로 발생한 서비스 먹통 사태 재발방지에 대한 자체 원인 분석을 마치고 전면 쇄신에 나선다. 인프라 하드웨어 설비부터 서비스 애플리케이션에 이르기까지 전체 시스템을 다중화하기로 했다.

이와 함께 인프라 전담조직을 신설하고 기술적 개선을 실행하기 위해 지난 5년간 투자 금액의 3배 이상 규모로 투자를 확대한다는 계획이다.

카카오는 7일 오전 개최된 개발자 콘퍼런스 ‘이프 카카오 데브 2022(이프 카카오)에서 먹통 사태 장애 원인 분석, 재발방지를 위한 기술적 개선, 미래투자와 혁신 계획을 발표했다.

연사로 나선 남궁훈 카카오 비상대책위원회 재발방지대책 공동 소위원장은 지난 10월15일 발생한 먹통 사태 재발방지를 위한 각오를 피력했다.

남궁 소위원장은 "카카오 ESG의 최우선 과제는 ‘우리의 서비스를 안정적으로 제공하는 것’ 그 자체였다"라며" 부족했던 데이터 이중화를 비롯해 인프라 개선을 위한 세 가지 실천과제를 제시했다. ▲과거의 원인을 분석하고 ▲현재에 대한 재발방지책을 세우며 ▲미래에 대한 투자를 확대한다는 게 골자다.

데이터센터간 이중화·관리도구 이중화 미흡했던 게 뼈 아팠다
이확영 원인조사소위원장은 이날 이프 카카오 키노트 발표를 통해 먹통 사태 원인을 상세히 분석했다. 그렙 최고경영자(CEO)를 겸임하고 있는 그는 지난 10월15일 SK C&C 판교 데이터센터 화재 사고로 인한 카카오 서비스 장애의 원인을 보다 객관적으로 규명·공유하기 위해 영입된 외부 인사다.

이 소위원장은 카카오는 지난 10월 발생한 서비스 먹통 사태 이후 복구가 지연된 원인으로 이중화 및 위기 대응 과정에 미흡함을 꼽았다. 데이터센터 간 이중화, 서비스 운영 관리 도구 이중화, 이중화 전환 후 가용 자원 부족 등의 문제로 복구에 긴 시간이 걸리게 됐다는 설명이다.

또 카카오 서비스의 장애가 길어진 주요 원인으로는 '이중화 조치'를 꼽으며 ▲데이터센터 간 이중화 미흡 ▲서비스 개발과 관리를 위한 운영 관리 도구 이중화 미흡 ▲이중화 전환 후 가용 자원 부족 등이 뼈아팠다고 설명했다.

또 이 소위원장은 카카오가 운영 관리 도구를 확실하게 이중화하지 않는 등 안정성 확보에 소홀했다고 설명했다. 아울러 이중화 전환 후 가용 자원도 부족한 것으로 분석됐다.

이밖에도 그는 카카오는 운영 관리 도구 복구 인력도 부족했으며, 특히 이중화에 필요한 상면의 부족이 가장 치명적이었던 것으로 분석했다. 먹통 사태가 발생했던 초기 복구를 비롯한 대응책을 총괄할 컨트롤타워도 없었다는 설명이다. 사고 당시 카카오와 공동체, 개별 조직들은 동시 다발적으로 장애에 대응한 것으로 알려졌다.

전체 시스템 통째로 다중화하겠다
이채영 비상대책위원회 재발방지대책소위원회 부위원장은 재발방지를 위해 인프라 하드웨어 설비부터 서비스 애플리케이션에 이르기까지 전체 시스템 단에서 더욱 철저하게 대비책을 마련하고 실행하겠다는 계획을 밝혔다.

우선 데이터센터 전체에 장애가 발생하더라도 모니터링과 장애탐지가 잘 동작할 수 있도록 모니터링 시스템을 다중화할 예정이다. 메인 백본 센터를 현재의 두 곳에서 세 곳으로 확대하고, 데이터센터 간에 늘어날 트래픽에 대응할 수 있도록 확장성을 고려한 설비 투자를 진행한다. 대용량 트래픽 전송이 필요한 서비스의 데이터센터 간 삼중화를 위해 별도 전용망도 구성한다.

데이터 부문에서는 모든 형태의 데이터를 일대일 복제를 넘어 데이터센터 간 이중화 이상의 다중 복제 구조로 구성하고, 장애 발생 시 장애 복구 조치를 즉각 실행할 수 있는 환경을 구축하겠다는 방침이다.

운영관리 도구는 데이터센터간 운영관리 도구 이중화를 완료했고 향후 삼중화를 계획하고 있다. 클라우드 등 플랫폼은 모든 클러스터를 데이터센터 단위에서 삼중화해 데이터센터의 전면적인 장애에도 서비스 수준을 유지할 수 있는 구조로 운영할 계획이다.

인프라 전담 조직 신설하고 BCP·DR 개선…"향후 5년간 3배 이상 투자금 투입"
고우찬 공동 소위원장은 안산 데이터센터 운영 안정성 강화와 향후 5년간 카카오의 IT 엔지니어링의 혁신책에 대해 발표했다. 카카오엔터프라이즈 부사장을 겸임하고 있는 고우찬 소위원장은 카카오는 서비스 안정성을 보장하기 위한 전문가로서 재발방지대책 공동 소위원장으로 영입됐다.

카카오 안산 데이터센터는 2024년 사용하는 것을 목표로 총 4600억원의 예산을 투입해 현재 시공 중이다. 24시간 무중단 운영을 위한 이중화 인프라 구축은 3개 영역, 즉 전력, 냉방, 통신 각각에 모두 적용된다. 특히 UPS(무정전 전원장치)실과 배터리실은 방화 격벽으로 각각 분리 시공해, 배터리실에 화재가 발생하더라도 나머지 시설 작동에 영향을 주지 않게끔 설계됐다.

IT 엔지니어링 혁신을 위해 우선 지배구조(거버넌스) 구조 개선을 꾀한다. 고우찬 소위원장은 카카오 내 IT 엔지니어링 전문가들로 전담조직을 신설할 예정이다. 앞으로 카카오 CEO 직할의 부문 규모로 IT 엔지니어링 전담 조직을 확대 편성하는 방안을 검토 중이다. 특히 데이터센터, SRE, 클라우드개발  엔지니어 채용과 육성을 공격적으로 진행할 예정이다.

아울러 카카오는 대규모 장애에 대비한 재해복구 위원회도 신설할 예정이다. 연속성 확보에 필수적인 항목을 도출하고 실제로 지속적으로 운영, 발전될 수 있도록 하는 전담 조직도 준비한다.

BCP와 DR 체계도 전면 쇄신한다. 고우찬 소위원장은 "BCP 취약성을 진단하고 정확한 처방을 받아 실행하는 작업을 진행 하도록 하겠다"라며" 그에 맞는 적절한 외부 파트너와 협력해 철저하게 BCP를 준비 하도록 하겠다"고 밝혔다.

또 국내에는 아직 보편화되지 않았지만 주요 글로벌 기업들이 도입해 효과를 보고 있는 카오스 엔지니어링 등 영역에서 연구개발(R&D)을 진행한다. 이와 관련해 개발된 툴들을 오픈 소스로 공개해 업계에 기여할 예정이다.

재해복구시스템(DR)은 삼중화+알파의 구조로 개선한다. 고 소위원장은 "데이터센터 삼중화는 구조상 3개 데이터센터 중 하나가 무력화되는 상황에서도 이중화가 담보되는 안정성을 갖고 있다"며 "여기에 주요 서비스는 멀티 클라우드를 활용해 서비스 연속성을 더욱 강화할 수 있도록 하겠다"고 밝혔다.

특히 자체 아키텍처 확충 및 구조 개선과 더불어  외부의 클라우드를 안전장치로 추가하겠다는 방침이다. 또 이 모든 것이 무력화 되더라도 꼭 단기간 내에 살려야 할 서비스, 이를테면 카카오톡의 텍스트 메시지 전송 기능 등을 위해 원격지 DR 데이터센터를 별도로 구축하는 방안도 검토한다.

카카오는 향후 5년간 지난 5년 동안 투자한 금액의 3배 이상 규모로 투자를 확대할 예정이다. IT 엔지니어링 거버넌스 강화, 인재 확보, BCP 외부 자문, 기술 R&D와 오픈소스화, 삼중화 플러스 알파의 DR 아키텍처 구현, 멀티클라우드, 원격지 DR 구현 등 개선사항을 이행하기 위해서다.

남궁 소위원장은 "미래에는 이런 사고가 발생하지 않도록 최선을 다할 것"이라며 "앞으로도 카카오의 서비스의 안정화가 우리의 최우선과제이며, 사회적 책임이라는 것을 항상 명심하겠다"라고 강조했다.


◎공감언론 뉴시스 eschoi@newsis.com, hsyhs@newsis.com

많이 본 기사

이 시간 Top