미디어젠, 초거대 AI 모델 학습용 데이터 구축 사업 수주
2억 어절 이상의 헬스케어 질의응답 데이터 구축
미디어젠·메트릭스·비디·위뉴·메인 등 5개사 컨소시엄
미디어젠 컨소시엄이 초거대 인공지능 언어모델(LLM)을 위한 AI 데이터 구축 사업을 수주했다고 29일 밝혔다. (사진=미디어젠 제공) *재판매 및 DB 금지
[서울=뉴시스] 오동현 기자 = 미디어젠 컨소시엄이 초거대 인공지능 언어모델(LLM)을 위한 AI 데이터 구축 사업을 수주했다고 29일 밝혔다.
미디어젠 컨소시엄은 과학기술정보통신부가 주관하고 한국지능정보사회진흥원(NIA)이 추진하는 ‘2023년도 인공지능(AI) 학습용 데이터 구축 사업’의 초거대 AI 모델을 위한 AI 학습용 데이터 구축 사업자로 최종 선정됐다.
이에 따라 헬스케어 분야에 대해 약 2억 어절 이상의 초거대 규모 생성형 AI 챗봇의 질의응답 데이터를 구축한다. 이 사업은 AI 최신 기술인 초거대 AI 언어모델 및 응용서비스 개발에 필수적인 대량의 말뭉치 데이터를 구축하는 것으로, 실제 일반인 및 의료진의 질의응답 데이터, 전문 의료 서적 데이터, 증강 데이터 등으로 구성된다.
미디어젠 컨소시엄은 미디어젠, 메트릭스, 비디, 위뉴, 메인 등 5개 전문 기업으로 구성돼 있다. 주관기관인 미디어젠은 초거대 AI 모델을 개발하고, AI 학습용 데이터 구축의 설계 및 품질 관리 전반을 관장한다. 크라우드 워커 전문 플랫폼 운용사인 메트릭스와 AI 소프트웨어 플랫폼 전문 기업인 비디는 다년간 AI 학습용 데이터 구축 사업에 참여해 AI 데이터 구축 프로세스에 따른 양질의 데이터를 구축한 경험을 보유하고 있다.
특히 참여기관 중 의료 전문 기업인 위뉴와 메인은 최근 생성형 AI 모델의 최대 약점이라고 불리는 데이터 환각(할루시네이션) 효과를 최소화하기 위한 실제 의료진 데이터의 수집 및 검수 역할을 담당할 예예이다. 위뉴는 국립암센터, 네이버 하이퍼클로바X, 일산 백병원 등과 질의응답형 헬스케어 전문 지식 서비스 협약을 맺고 있으며, 메인은 원주 세브란스병원 등과 진단 정보 및 의료 데이터 정제 서비스를 진행하고 있다.
이번 데이터 구축 사업에서 초거대 AI 훈련용 데이터가 구축되면 생성형 AI 모델 기반 챗봇을 통해 손쉽게 헬스케어 분야에 대한 지식 정보를 얻을 수 있으며, 의료진이 직접 작성한 데이터를 활용해 질의응답의 내용적 불확실성을 최소화할 수 있을 것으로 기대된다.
사업을 총괄하고 있는 미디어젠의 송민규 상무는 “생성형 AI 챗봇에 대한 일반의 기대가 매우 큰 상황에서 초거대 AI 모델을 위한 대규모 데이터 구축 사업자로 선정된 것에 대해 매우 기쁘게 생각한다”며 “실생활에 밀접한 도움을 줄 수 있는 헬스케어 분야에서 AI 데이터의 환각 현상을 최소화하기 위한 노력을 아끼지 않을 예정”이라고 밝혔다.
초거대 AI 모델 학습을 위한 헬스케어 질의응답 데이터 구축은 올해 연말까지 진행된다. 구축이 완료된 후에는 한국지능정보사회진흥원에서 운영하는 ‘AI-Hub’를 통해 모든 데이터가 일반에 공개될 예정이다.
◎공감언론 뉴시스 [email protected]
Copyright © NEWSIS.COM, 무단 전재 및 재배포 금지