• 페이스북
  • 트위터
  • 유튜브

"서울사람들은 어떻게 살까"…개인정보 유출 걱정 없이 통계 뽑았던 비결

등록 2024.02.26 15:29:14수정 2024.02.26 16:05:29

  • 이메일 보내기
  • 프린터
  • PDF

LG CNS '서울시민 라이프스타일 재현데이터' 생성·서비스 담당해

가명결합된 서울시민 생활데이터 기반…안전성 강화한 합성데이터

"누구나 자유롭게 활용해 시민의 금융, 소비 등 연구·분석 가능"

(사진=유토이미지) *재판매 및 DB 금지

(사진=유토이미지) *재판매 및 DB 금지


[서울=뉴시스]송혜리 기자 = #지난 2022년 3분기 기준 서울시민 가구당 총자산은 평균 9억5361만원, 대출은 평균 9210만원이었으며 대출이 있는 1인가구 5명 중 1명은 소득대비 부채상환 위험이 큰 것으로 나타났다.

청년 1인 가구는 소비의 절반 이상을 '전자상거래'와 '요식(식당)'에 할애하는 반면, 노년 1인 가구는 '소형유통점'과 '의료'에 소비의 절반 가량을 사용하는 것으로 나타났다.

지난주 서울시가 공개한 '서울시민 라이프스타일 재현데이터' 분석 결과다. '서울시민 라이프스타일 재현데이터'는 382만 서울시민 가구(740만명)의 주거·소비·금융 패턴 등에 관한 빅데이터 분석 서비스다.

예를 들어 ▲1인 가구의 다인가구 대비 연체 및 대출 통계량 분석 ▲가구구성원 수 및 세대주 연령대에 따른 주택담보대출 상환비중 분석 ▲1인 가구 자영업자 경제적 부담 분석 등을 진행해 볼 수 있다.

'서울시민 라이프스타일 재현데이터'는 합성데이터로 생성되는 것이 특징이다. 합성데이터는 원본 데이터의 통계적 특성과 구조를 이용해 가상으로 재현한 인공데이터를 말한다. 개인정보를 파악할 수 없으면서도 원본 데이터 분석 결과와 유사한 결과를 얻을 수 있도록 설계되기 때문에, 데이터 개인정보 이슈를 해결할 수 있는 방법 중 하나로 꼽힌다.

서울시는 "지자체 최초 개인정보 유출 위험없이 다방면에 활용가능한 '재현데이터'를 개발했다"고 강조했다.

개인정보 유출 위험 없이 정책연구 등 다방면에 활용가능

'서울시민 라이프스타일 재현데이터' 개발은 LG CNS가 담당했다. 회사는 "그간 축적한 데이터 기술력을 집약했다"고 강조했다.

LG CNS는 IT업계에서 유일하게 정부에서 인증하는 데이터 전문기업 3종인 '데이터전문기관' '결합전문기관' '마이데이터 사업자'를 모두 획득했다. 지난해 7월 금융위원회로부터 '데이터전문기관'으로 지정됐으며, 앞서 2022년 7월에는 개인정보보호위원회로부터 결합전문기관으로 지정됐다. 2021년 9월에는 금융위원회로부터 마이데이터 사업자 본허가를 획득하기도 했다.

LG CNS는 2022년부터 가명결합을 위한 결합전문기관, 데이터전문기관 서비스와 가명정보처리 컨설팅, 분석, 결합대상 데이터 중개 등 '가명 데이터결합분석 통합 서비스' 사업을 본격화 했다. 아울러 카드, 은행,  신용평가, 통신, 유통, 모빌리티, 글로벌 빅테크 등 다양한 분야의 기업 파트너들과 함께 데이터결합분석 활용 사례를 확보하면서 합성데이터 관련 전문성을 강화해왔다.

LG CNS 측은 "이번 서울시 사업은 가명정보와 합성데이터에 대한 높은 전문성을 필요로 했다"고 설명했다.

LG CNS는 결합된 가명정보를 기반으로 합성데이터를 생성함으로써, 데이터의 활용성과 안전성을 한층 강화했다. '서울시민 라이프스타일 재현데이터'는 주민등록자료, 건축물대장, 민간 3사(신용정보회사, 카드사, 통신사)의 정보로 제작된 '가명결합 데이터'를 기반으로 생성된다.

아울러 정교한 합성데이터를 생성하기 위해서는 활용 목적에 적합한 실용성 있는 시나리오를 설계하는 노하우와 빅데이터, 인공지능(AI) 기술력이 필수다. LG CNS는 '유스케이스(Use-Case)' 설계부터 정교한 데이터 샘플링, 합성데이터 생성 모델 개발, 전·후처리 과정 등을 통해 대규모의 고품질 합성데이터를 생성했다.

'서울시민 라이프스타일 재현데이터'는 '서울시민 금융현황'과 '서울시민 소비 및 이동 패턴' 등 두가지 주제의 데이터세트로 제공된다. '서울시민 금융현황' 데이터의 경우 약 65개의 변수, 약 740만건의 합성데이터로 이뤄져 있다.

이를 활용하고 싶은 기관·시민들은 빅데이터캠퍼스에서 ▲성별 ▲생년월일 ▲직업 ▲추정연소득 ▲자산금액 ▲대출잔액 등 약 65개의 변수를 조합해 서울시민의 금융 현황 데이터를 분석하고, 정보를 얻을 수 있다.

빅데이터캠퍼스서 이용 신청…"차별화된 고객 경험 제공하겠다"

'서울시민 라이프스타일 재현데이터'는 '빅데이터캠퍼스'에 이용 신청하면, 시민 누구나 본원과 8개 분원을 직접 방문해 활용 가능하다.

황윤희 LG CNS 데이터허브&플랫폼사업담당 상무는 "앞으로 모든 분야에서 개인정보 보호와 데이터 활용에 대한 중요성이 더욱 커질 것"이라며 "고객들이 당사의 가명정보 결합, 합성데이터 역량을 통해 새로운 비즈니스 인사이트와 기회를 얻을 수 있도록 서비스를 확대할 계획이며, 이를 통해 차별적 고객경험을 제공하겠다"고 강조했다.


◎공감언론 뉴시스 [email protected]

많이 본 기사