생성형 인공지능 GPT-4, 한의사 국시에서 합격 근접한 성적 기록

한국어 텍스트 학습 부족으로 한국 의료 체계 이해 부족 발견 등 의의

[민족의학신문=박숙현 기자] 생성형 인공지능 모델인 GPT-4에게 한의사 국시를 치르게 해본 결과 한의사 국시 합격선에 거의 근접한 57.29%의 정답률을 기록했다. 반면 GPT-4는 한국어로 된 정보를 충분히 학습하지 못해 한국 의료법이나 한국에서 권장되는 진료지침 등에 대한 이해가 부족하다는 한계도 발견했다.

가천대학교 김창업 교수 연구팀은 생성형인공지능모델(generative AI model)인 GPT-4가 한의사 국가시험에서 합격선에 근접한 성적을 거두었다고 3일 밝혔다.

GPT-4는 ChatGPT를 개발한 OpenAI에서 지난달 14일 공개한 생성형 거대언어모델 (generative large language model)로, ChatGPT보다 우수한 성능으로 변호사 시험, 생물 올림피아드 등 각종 시험에서 사람을 능가하는 퍼포먼스를 보여주고 있다. 뿐만 아니라 미국의사시험에서는 이미 높은 성적을 기록하여, 의료 인공지능 개발에 이러한 언어 모델을 활용할 수 있을 것인지 논의가 활발히 이루어지고 있다.

김창업 교수팀은 이러한 모델을 한의학 인공지능개발에도 적용할 수 있을지 평가하고자 했다. GPT-4는 지난해 시행된 한의사 국가시험에서 평균 57.29%의 정답률을 기록하였으며 이는 합격선인 60%에 근접하는 성적이다. 이러한 결과는 의학 혹은 한의학 분야에 대한 별도의 추가 훈련 없는 사전학습 모델만으로 이루어졌다.

특히, 이번 연구는 한국의료에 인공지능을 적용할 때 발생할 수 있는 문제점 역시 발견하였다는 의의가 있다. GPT-4는 과목별로 정답률의 차이가 크게 나타났다. 이 중 국제적으로 표준화된 진단 기준에 대한 문제가 주로 출제된 신경정신과학에 대해서는 GPT-4가 높은 성능을 나타냈다. 한편, 서양의학 뿐 아니라 중의학과도 차별화 되는 이론을 다루는 내과학2과목에서는 가장 낮은 정답률을 나타냈다. 특히, 한국 의료법을 다루는 과목은 한의학과 직접적인 연관이 없음에도 낮은 정답률을 나타냈다.

이에 대해 김창업 교수팀은 “영미권에서 생산된 데이터로 학습된 GPT-4는 전세계에서 통용되는 지식에 대해 충분히 학습했지만, 한국에서만 적용되는 의료법이나 보험체계, 한국에서 권장되는 임상 지침 등은 충분히 학습하지 못했을 수 있다”고 해석했다.

본 연구에 참여한 김창업 교수와 장동엽 연구원은 이번 연구의 의의에 대해 “대중화되고 있는 거대언어모델을 활용한 한의임상현장에서의 자동화 된 데이터 수집, 한의임상보조 인공지능, 한의대생이나 한의사의 진료 기술을 훈련할 수 있는 학습용 인공지능 개발 등 다양한발전가능성을 확인했다”며 “한의학에 대한 AI 개발뿐 아니라, 각 국가의 상황에 맞는 의료 인공지능 개발에 참고할 수 있는 기초자료로 활용되기를 희망한다”고 밝혔다.

이번 연구는 지난달 31일 ‘아카이브(arXiv)’에 ‘Exploring the Potential of Large Language models in Traditional Korean Medicine: A Foundation Model Approach to Culturally-Adapted Healthcare (doi: https://doi.org/10.48550/arXiv.2303.17807)’라는 제목의 논문으로 공개되었다.

박숙현 기자 다른기사 보기