• 페이스북
  • 트위터
  • 유튜브

'첫단추부터 삐걱' 카카오 먹통 대란 단초는 SK판교데이터센터 화재 감지실패

등록 2022.12.06 14:00:00수정 2022.12.06 18:16:30

  • 이메일 보내기
  • 프린터
  • PDF

정부 합동 판교 데이터센터 화재·카카오 장애 조사 결과 발표

SK C&C 데이터센터, BMS 감지실패…전원 선별 차단조치도 안돼

2016년 리튬이온배터리 도입 이후 특화된 방화조치 전혀 안돼

카카오, 이중화 시스템은 갖췄지만 운영관리 도구 판교 센터서만 이중화 오류

정부, 관계사 3사에 개선 조치 요구…개선조치 1개월 내 정부 보고해야

이종호 과기부 장관 "종합개선방안 내년 초까지 내놓겠다"

[성남=뉴시스] 김근수 기자 = SK C&C 판교 데이터센터에 화재가 발생한 15일 오후 경기도 성남시 판교 SK C&C 판교 데이터센터 앞에서 소방관들이 분주하게 이동하고 있다. 2022.10.15. ks@newsis.com

[성남=뉴시스] 김근수 기자 = SK C&C 판교 데이터센터에 화재가 발생한 15일 오후 경기도 성남시 판교 SK C&C 판교 데이터센터 앞에서 소방관들이 분주하게 이동하고 있다. 2022.10.15. [email protected]

[서울=뉴시스]윤현성 기자 = 지난 10월 발생한 카카오 먹통 대란은 SK C&C 판교 데이터센터의 부실한 화재대응시스템에 근본적인 원인이 있었던 것으로 정부 조사결과 밝혀졌다.

배터리모니터링시스템(BMS)이 갖춰져 있었으나 화재 발생 직전까지 이상징후를 포착하지 못했다. 배터리 상단에 전력선이 포설되고 일부 UPS(무정전전원장치)가 리튬이온배터리실과 물리적으로 분리되지 않은 공간에 배치되는 구조적 문제도 지적됐다. 가스로만 진화하기 어려운 리튬이온배터리 화재 특성상 초기 진압에 한계가 분명한데, SK C&C는 2016년 리튬이온배터리 설치 이후 현재까지 특화된 방화조치는 한 적이 없었던 것으로 밝혀졌다.

카카오의 경우, 판교데이터센터와 다른 데이터센터간 이중화시스템을 갖췄지만, 운영관리도구를 판교데이터센터에서만 이중화하는 바람에 정작 시스템이 제대로 작동하지 않았다. 이런 복합적 요인 탓에 카카오톡, 카카오T 등 카카오 주요 서비스들이 최대 127시간 33분간 장애가 발생했다.

정부는 SK C&C, 카카오, 네이버 3사에게 주요 사고 원인에 대한 개선조치와 향후 계획을 수립해 1개월 이내 보고토록 요구한다는 계획이다.

과학기술정보통신부는 방송통신위원회, 소방청과 함께 이같은 내용을 골자로 SK C&C 판교 데이터센터 화재 및 카카오·네이버 등 부가통신서비스 장애에 대한 조사 결과를 6일 발표했다.

앞서 지난 10월15일 오후 SK C&C 판교 데이터센터 지하 3층 배터리실 발생한 화재로 카카오와 네이버의 서비스 기능이 마비된 바 있다. 불은 8시간여 만에 완전 진화됐지만 당시 화재로 카카오톡, 카카오T 등 카카오 주요 서비스들이 마비돼 복구까지 최대 약 127시간33분이 걸렸고, 네이버는 최대 12시간까지 일부 서비스 및 기능 오류가 발생했다.

BMS 감지 못하고 전력선은 배터리 상단 포설…SK C&C 화재대응시스템 부실

정부 조사 결과, SK C&C 판교 데이터센터의 경우 배터리 온도 모니터링 시스템(BMS)가 설치됐으나 화재 발생 직전까지 화재에 대한 이상 징후를 포착하지 못했다. 이런 상황에서 지하 3층 내 배터리실 리튬이온배터리에서 예기치 못한 화재가 발생했다.

구조적 설계에도 문제도 있었다. 배터리실 상부에 전력선을 포설한 관계로 불이 나자마자 이 전력선이 손상됐고, 일부 UPS는 배터리실과 물리적으로 완벽히 분리되지 않아 화재 당시 작동이 멈췄다.

화재 진화 과정에서 살수가 필요한 상황에서 살수로 인한 2차 피해가 우려되는 특정 구역 및 차단 스위치를 단시간 내 식별할 수 없었던 것으로 조사됐다. 이로 인해 선별적 차단 조치가 이뤄지지 못했고, 이것이 전체 전력 차단으로까지 이어졌다는 것이 정부측 설명이다.

이처럼 데이터센터에서 화재가 발생해 전체 전력이 차단된 상황에서 카카오의 이중화 시스템 문제까지 겹치면서 장시간의 먹통 대란이 발생하게 됐다.
'첫단추부터 삐걱' 카카오 먹통 대란 단초는 SK판교데이터센터 화재 감지실패


카카오 서버 운영만 이중화하면 뭐하나…관리도구는 판교센터에만

카카오는 서비스 기능을 5개의 레이어로 구분하고 판교 데이터센터(동작 역할)와 다른 데이터센터 간 동작(Active)-대기(Standby) 서버 체계로 이중화했다. 그러나 대기 서버를 동작 상태로 만들기 위한 '운영 및 관리 도구'를 정작 판교데이터센터 내에서만 이중화했고, 다른 데이터센터와는 이중화하지 않았다. 판교데이터센터의 동작서버 작동 불능시 작동해야 할 대기 서버가 정상 작동하지 않았던 이유다.

애플리케이션, 서비스 플랫폼  레이어에서 이미지, 동영상 송수신 시스템 등 일부 서비스 구성요소가 데이터센터가 이중화되지 않은 것도 서비스 정상복구가 지체된 요인으로 지목됐다.

또 카카오톡, 다음을 비롯한 서비스 대부분의 핵심기능이 판교 데이터센터에 집중시킨 설계도 원인으로 꼽혔다. 일부 서버, 네트워크 등 오류에 대비한 재난 대비 훈련 등 조치는 했지만, 주력 데이터센터 전체가 일시에 불능이 되는 대형 재난상황에 대해서는 대비가 부족했다는 게 정부측 진단이다.

이번 먹통사고로 카카오는 현재 10만5116건의 피해를 접수했으며, 유료 서비스 피해는 1만4918건, 금진 피해를 언급한 무료 서비스는 1만3198건이 접수됐다.

네이버의 경우 데이터센터 간 이중화 조치를 통해 서비스 중단은 없었으나 다른 데이터센터로 서비스를 전환하는 과정 등에서 쇼핑·뉴스 등 일부 기능에 오류가 발생했다.

향후 조치계획 방송통신재난대책본부에 1개월 내 보고토록 시정명령

정부는 이같은 장애 원인 발표와 함께 관계사 3사에 시정 조치를 요구했다. 각사별로 살펴보면 ▲SK C&C에게는 데이터센터 화재 예방·탐지 시스템 구축과 데이터센터 전력공급 구조 재배치 ▲카카오에게는 서비스 다중화, 재난대비 훈련 및 복구방안 수립, 이용자 고지 체계 구축 및 피해 보상 계획 수립 ▲네이버에게는 보다 철저한 예방 및 복구를 위한 사고 모의 훈련 등을 주문했다.

이종호 과기정통부 장관은 "데이터센터와 디지털서비스의 장애가 국민 일상의 불편을 넘어 경제·사회 전반을 마비시키는 등 지대한 영향을 끼치는 만큼 이번 사고에 원인을 제공한 사업자들은 이를 엄중히 인식하고 피해 복구 및 재발 예방에 최선의 노력을 다함으로써 디지털서비스에 대한 국민 신뢰를 다시 회복할 수 있기를 바란다"고 강조했다.

그러면서 "정부는 이번 사고를 계기로 주요 디지털서비스에 대한 재난대응체계를 원점에서 재검토하고 각 사업자별 개선방안, 점검결과, 제도개선 등을 종합해 디지털 시대에 맞는 안정성 강화방안을 마련함으로써 끊김 없는 디지털서비스를 제공할 수 있는 확고한 디지털 위기관리 체계를 구축해나가겠다"고 덧붙였다.

과기정통부는 1개월 후 3사가 제출한 조치결과 및 향후 조치계획을 확인하고, 재난 예방-대비-대응-복구 전 단계별 재난관리체계 강화를 위한 전문가·사업자 의견과 법·제도 개선사항을 반영해 디지털서비스 안정성 확보를 위한 종합적 개선방안을 내년 1분기 중 수립할 계획이다.


◎공감언론 뉴시스 [email protected]

많이 본 기사