newsis

  • 페이스북
  • 트위터
  • 유튜브

20년치 기사 배웠다…언론재단, AI 언어모델 'KPF-BERT'

등록 2022.02.23 09:37:28

  • 이메일 보내기
  • 프린터
  • PDF
associate_pic

[서울=뉴시스] 한국언론진흥재단이 개발한 인공지능(AI) 언어 모델 'KPF-BERT'를 설명하는 영상 (사진 출처=한국언론진흥재단 유튜브) 2022.02.23. photo@newsis.com   *재판매 및 DB 금지


[서울=뉴시스]이수지 기자 = 한국언론진흥재단이 20년 치 기사를 배운 인공지능(AI) 언어 모델 'KPF-BERT'를 23일 공개했다.

KPF-BERT는 구글에서 개발한 다국어 언어 모델 'BERT'를 재단이 보유한 빅 카인즈 기사 데이터를 활용해 학습시킨 결과물이다.

AI를 활용한 뉴스 추천배열, 자동작성, 요약, 댓글 관리, 오탈자 및 비문 교정, 비슷한 주제 기사 묶기, 외신 자동 번역 등 언론 영역에서 AI 기술의 도입 및 적용 필요성이 증가하고 있지만, 언론사 자체 기술 개발은 여러 가지 이유로 어려운 상황이다.

이에 재단은 '언론사를 위한 언어정보 자원 개발' 사업을 추진해 그 결과물로 KPF-BERT를 공개했다.

구글이 2018년 발표한 BERT는 기존 단방향 언어 모델과는 다르다. 기존 언어 모델은 앞 단어들을 참조해 다음에 나올 단어를 예측하는 방식이었다.

BERT는 문장에서 예측해야 할 단어 이후의 단어들까지 양방향으로 참조해 그 의미를 더 잘 이해하는 방식으로 학습돼 AI와 자연어 처리 분야에서 획기적 기술 개선이 이뤄졌다.

BERT를 활용한 기존 한국어 모델들은 위키백과, 웹 문서 등을 주로 학습했다. 이와 달리 KPF-BERT는 재단이 보유한 2000년부터 2021년 8월까지 빅 카인즈 기사 약 4000만 건을 학습해 언론사와 뉴스 기사 활용 기술에 최적화되도록 개선했다.

그 결과, 기존 ETRI BERT, SKT의 koBERT 보다 기계 독해 등에서 성능 향상을 보여줬다.

재단은 KPF-BERT 구축 내용과 활용을 위한 안내 내용을 재단 깃허브에 모두 공개했다. 활용을 원하는 언론사, 연구자, 일반 시민 모두 무상으로 이용할 수 있다.

이와 함께 KPF-BERT를 활용한 기사 요약 기술, 비슷한 주제의 기사를 한데 묶어주는 클러스터링 기술도 개발했다. 두 기술 모두 KPF-BERT와 함께 재단 깃허브에 공개했다.

이번에 공개한 KPF-BERT의 의미와 기술 내용을 자세히 설명하는 설명 자료와 영상도 제공한다.  

재단은 KPF-BERT 활용을 통해 문맥과 의미를 고려한 맞춤법 검사기, 단어 자동완성 모델, 문법적 오류 검출, 혐오 표현을 검출하고 순화해 표현하는 모델, 논조 파악 모델, 광고성 기사 검출 모델 등의 개발을 기대하고 있다.


◎공감언론 뉴시스 suejeeq@newsis.com

많이 본 기사

이 시간 Top