미 오픈AI사, 4개월 만에 챗GPT 새 버전 발표

등록 2023.03.15 11:09:56수정 2023.03.15 11:12:54

변호사 시험 상위 10% 성적...영상 설명도

NYT, 인공지능 개선 속도에 놀라울 정도

미래 전망 못하고 거짓말 지어내기 여전

[서울=뉴시스]챗GPT를 발표해 선풍을 일으킨 미국의 인공지능 개발회사 오픈AI가 4개월 만에 새로 내놓은 GPT-4를 발표한 홈페이지. 2023.3.15.

[서울=뉴시스] 강영진 기자 = 챗GPT라는 인공지능 챗봇을 발표해 선풍을 일으킨 미 오픈AI가가 14일(현지시간) 4개월 만에 성능을 크게 개선한 새로운 버전의 챗봇 GPT-4를 발표했다.

미 뉴욕타임스(NYT)는 GPT-4가 복잡한 질문에도 답을 할 수 있으며 시도 쓰고 인간의 감정도 흉내 낼 수 있다면서 기술 산업의 차세대 리더가 되기 위한 인공지능이 개발 속도에 컴퓨터 과학자들이 놀라고 있다고 전했다.

오픈AI는 14일 기업용 GPT-4 사용권을 판매하기 시작했으며 프로그램 개발자들이 GPT-4 기반 프로그램을 개발하도록 허용했다. 월 20달러를 내고 기존의 챗GPT 플러스를 사용해온 개인은 추가 부담없이 GPT-4를 사용할 수 있다.

NYT는 보통의 사용자들에게 GPT-4가 챗GPT와 크게 다르지 않을 수 있으나 사용이 늘어나면서 차이점이 부각될 것으로 예상했다.

NYT는 GPT-4가 챗GPT보다 통합변호사시험(Uniform Bar Examination)에서 빠르게 세금액을 계산해내 최고점을 받고 영상에 대한 상세한 설명을 제시하는 등 새로운 능력을 갖췄지만 여전히 사람처럼 터무니없는 실수를 저지르는 결함도 있다면서 GPT-4가 달라진 점을 10가지로 평가했다. 다음은 NYT의 평가내용 요약.

▲적합도 개선

스페인어를 모르는 영어 사용자가 스페인어 학습 자료를 요청하자 GPT-4가 상세하고 체계적인 강의 목록을 제시하고 학습 및 단어 기억 방법도 제시했다.

제시된 전부가 뛰어난 방법은 아니었지만 GPT-3.5에 기반한 챗GPT에 같은 요구를 했을 때 제시된 답변보다 훨씬 유용했다.

▲정확도 개선

인공지능 전문가 오렌 에치오니가 “오렌 에치오니(Oren Etzioni)와 엘리 에치오니(Eli Etzioni)가 무슨 관계냐?”라는 질문에 GPT-3.5는 형제사이라고 오답을 했으나 GPT-4는 아버지와 아들 사이라고 맞게 답했다.

그러나 GPT-4도 에치오니 박사가 최근 앨런 연구소 최고 경영자에서 물러난 것은 알지 못했다.

▲상세한 영상 설명

GPT-4는 문장에 대한 답변 능력에 더해 영상에 대한 답변 능력도 새로 갖췄다. 그렉 브록먼 오픈AI 사장 겸 공동설립자는 허블 우주망원경이 촬영한 영상을 6개 문단으로 상세하게 설명하는 것을 시연했다.

영상과 관련된 질문에도 답변을 했다. 식재료가 포함된 냉장고 내부 사진을 보고 만들 수 있는 음식 몇 가지를 제시했다.

이 기술은 아직 일반이 사용할 수 있도록 공개되지 않았으나 오픈AI사는 GPT-4를 사용해 인터넷 상의 영상이나 촬영된 영상에 대해 상세한 설명을 하는 비 마이 아이즈(Be My Eyes: 나 대신 보기) 서비스를 구축했다.

▲전문성 대폭 강화

노스캐롤라이나대 심혈관 전문의 애닐 게히는 최근 자신의 환자의 병력과 증상을 일반인은 모르는 전문 의학 용어를 사용해 설명하고 치료법을 묻자 “정확한 치료법을 제시했다”고 했다. 다른 환자들 사례에 대해서도 실제 이뤄지는 치료법을 제시했다는 것이다.

아직 완전하지 않아서 게히 박사와 같은 전문가의 평가를 받아야 하지만 컴퓨터 프로그래밍에서 회계 분야까지 여러 분야에서 전문성을 발휘했다.

▲요약 능력 탁월

NYT 기사를 요약하라는 주문에 매번 정확하게 답했다. 일부러 요약문에 문장을 추가해 다시 물으면 추가된 문장을 정확하게 걸러냈다. 평가를 진행한 에치오니 박사는 고품질의 요약과 비교를 할 수 있는 능력은 문장을 이해하고 이해한 내용을 표현하는 주목할 만한 능력으로 “뛰어난 지능의 형태”라고 평했다.

▲약간의 유머 감각

가수 마돈나에 대해 새로운 농담을 만들라고 주문하자 웃음을 터트릴 수 있는 답을 제시했다. 마돈나의 최대 히트곡을 아는 사람이라면 충분히 웃을 수 있는 답변이다.

예컨대 GPT-3.5는 “마돈나가 은행에 간 이유는? 실제 돈을 빌리려고”라고 답했으나 GPT-4는 “마돈나가 기하학을 배우는 이유는? 다양한 각도로 포즈를 취하는 방법을 알고 싶어서”라고 답했다.

GPT-4는 “아재 개그”까지는 아니더라도 약간의 유머 감각이 더해졌다.

▲추론도 일부 실행

넓이가 무제한인 문을 탱크와 자동차 중 어느 것이 지나갈 수 있느냐는 질문에 GPT-3.5는 둘 다 가능하지만 높이가 변수라고 답했으나 GPT-4는 둘 다 가능하다고만 답하고 높이에 대한 언급이 없었다.

샘 앨트먼 오픈AI CEO는 새 버전이 “약간의” 추론을 할 수 있다고 설명했다. 그러나 추론 능력은 상황에 따라 큰 차이가 났다. 오히려 GPT-3.5 버전이 높이를 감안해 추론한 점에서 앞섰다.

▲자격시험 통과

오픈AI는 GPT-4가 미 41개주에서 실시되는 통합변호사시험 응시자 가운데 상위 10%의 성적을 낸다고 설명했다. 또 대학수능시험(SAT)에서 1600점 만점에 1300점을 받고 고등학교의 생물, 산수, 거시경제, 심리학, 통계학 및 역사학 선행학습과목 5과목 모두 점수 기준선을 넘었다고 밝혔다.

GPT-3.5는 통합변호사시험에서 낙방했었고 선행학습과목 점수가 높지 않았다.

디젤트럭 수리소를 운영하는 사람에 관한 변호사 시험 문제에서 난해한 법률용어를 동원해 정확한 답을 낸 뒤 쉬운 영어로 설명해달라고 추가 주문을 하자 쉬운 영어로도 정확하게 답을 해냈다.

▲미래 전망 능력 부족

미래에 대한 전망을 제시하라는 주문에 잘 대응하지 못했다. 독창적인 추론을 만들어내지 못하고 다른 사람들이 제시한 전망을 종합하는 듯했다.

예컨대 “향후 10년 내 자연어처리 연구에서 중요한 과제가 무엇이냐”는 질문에 독창적인 답을 제시하지 못했다.

▲거짓말 지어내기

GPT-4 역시 “환각”에 사로잡혀 엉뚱한 답을 내놓기도 했다. 모든 인공지능이 그렇듯 옳고 그름을 판별할 능력이 없기 때문에 가공의 답을 내놓는 것이다.

최신 암 연구 결과를 담은 웹사이트 주소를 요구하자 실재하지 않는 인터넷 주소를 제시했다.

◎공감언론 뉴시스 [email protected]