• 페이스북
  • 트위터
  • 유튜브

과기부, 인공지능 학습용 데이터 170종 오늘부터 본격 개방

등록 2021.06.18 10:00:00

  • 이메일 보내기
  • 프린터
  • PDF

'AI 허브'에 공개…674개 기업·기관과 4만여명 국민 참여

활용 촉진·확산 위해 '인공지능 데이터 활용협의회' 출범

(출처: 과학기술정보통신부)

(출처: 과학기술정보통신부)

[서울=뉴시스] 이진영 기자 = 과학기술정보통신부와 한국지능정보사회진흥원(NIA)은 국내 인공지능(AI) 기술 및 산업 발전의 촉진제가 될 인공지능 학습용 데이터 170종(4억8000만건)을 '인공지능 허브'(aihub.or.kr) 사이트에 18일부터 개방한다고 발표했다.

과기부는 지난 2017년부터 기업, 연구자, 개인 등이 시간 및 비용 문제로 개별 구축하기 어려운 인공지능 학습용 데이터를 구축·개방해왔다. 또 지난해부터는 디지털 뉴딜 '데이터 댐' 구축 프로젝트의 일환으로 구축 규모를 대폭 확대해 추진 중이다.

과기부는 지난해 구축해 이번에 개방하는 8대 분야 170종의 인공지능 학습용 데이터는 음성·자연어(한국어 방언 등 39종), 헬스케어(암진단 영상 등 32종), 자율주행(도로주행영상 등 21종), 비전(스포츠 동작 영상 등 15종), 국토환경(산림수종 이미지 등 12종), 농축수산(가축행동 영상 등 14종), 안전(노후 시설물 이미지 등 19종), 기타(패션상품 이미지 등 18종) 등으로 구성됐다.

이날 60종을 시작으로 이달 말까지 순차적으로 총 170종을 개방할 예정이다. 이 가운데 헬스케어 데이터(27종) 등 개인정보 및 민감정보가 포함될 우려가 있는 59종의 데이터는 최종검증을 거쳐 30일에 개방할 계획이다.

구체적으로 보면 30일 공개를 앞둔 한국어 방언(경상·전라·충청·강원·제주) 발화 데이터는 표준어에 비해 사투리를 잘 인식하지 못하던 음성 기반 인공지능 서비스의 문제점을 상당 부분 해결할 수 있을 것으로 기대된다.

이날부터 오는 30일까지 순차적으로 공개될 자율주행 데이터(21종)는 국내 도로주행 영상뿐 아니라, 주차 장애물·이동체 인지 영상, 버스 노선주행 영상 등 다채로운 데이터를 제공해 자율주행차 개발을 한층 앞당길 것으로 관측되고 있다.

과기부는 이번 170종 데이터는 기획부터 구축까지 산업계, 전문가뿐만 아니라, 많은 국민들이 참여한 결과물이기에 더욱 뜻 깊다고 강조했다.

실제 국내 주요 인공지능·데이터 전문기업은 물론 주요 대학(서울대, KAIST 등 48개), 병원(서울대병원, 아산병원 등 25개) 등 총 674개 기업·기관이 대거 참여했다. 또 데이터 수집·가공 등 구축 과정에 경력단절여성, 취업준비청년 등 국민 누구나 참여할 수 있는 크라우드소싱 방식을 도입해 4만여명이라는 많은 국민들의 참여를 이끌어냈다고 과기부는 전했다.

(출처: 과학기술정보통신부)

(출처: 과학기술정보통신부)

인공지능 학습용 데이터의 품질과 활용성을 검증하고 관리하는 과정에도 분야별 전문가와 전문기관, 활용기업 등이 힘을 모은 것도 이목을 끈다.

주요 대기업(네이버, LG, 삼성전자, KT, 현대차 등), 스타트업(딥노이드, 스트라드비젼, 비바엔에스 등), 대학 및 연구기관(KAIST, GIST, ETRI, 농정원 등) 등 20여개 기업·기관이 참여해 데이터 개방 전, 활용성 검토를 진행(5~6월)해 실제 수요자가 요구하는 데이터 품질을 확보하고자 했다.

또 지난해 9월부터 8대 분야별 산·학·연 전문가 80여명이 참여하는 ‘품질자문위’를 운영, 전문적 품질관리 지원체계도 구축했다.

아울러 과기부는 이날 데이터 활용 촉진과 성과 확산 등을 위한 '인공지능 데이터 활용협의회' 출범식을 열고, 현장 간담회를 개최해 데이터를 실제로 활용하는 기업·기관들의 생생한 의견을 수렴했다.

협의회는 데이터 품질관리 전문기관인 한국정보통신기술협회(TTA)와 이번 170종 데이터의 활용성 검토에 참여한 기업·기관을 중심으로 구성됐으며 인공지능 허브 데이터를 적극 활용하고 성과를 공유·확산하는 한편, 데이터 품질 제고와 지속적 개선에 협력해 나갈 예정이다. 향후에도 지능정보원(NIA)은 참여를 희망하는 기업 및 기관을 중심으로 협의회를 지속적으로 확대해 나갈 계획이다.

임혜숙 과기장관은 "댐의 물이 대지 곳곳으로 스며들어 꽃을 피우듯이, 이번에 공개되는 데이터들이 산업 곳곳에서 널리 활용돼 혁신의 열매를 맺을 수 있기를 기대한다"며 "정부도 고품질의 인공지능 학습용 데이터를 지속적으로 제공하고, 누구나 데이터를 쉽게 활용하고 성과를 공유할 수 있는 환경을 조성하는 데 지원을 아끼지 않겠다"고 말했다.


◎공감언론 뉴시스 [email protected]

많이 본 기사