전통의학 설문지 분석 및 확진 지원 시스템 개발
상태바
전통의학 설문지 분석 및 확진 지원 시스템 개발
  • 승인 2014.12.03 09:14
  • 댓글 0
이 기사를 공유합니다
연구동향팀

연구동향팀

editor@http://


임상한의사를 위한 연구동향 <136>
[출처] Kotoe Katayama et al. Analysis of Questionnaire for Traditional Medicine and Development of Decision Support System. Evid Based Complement Alternat Med. 2014

[개요] 한의학적 진단에 있어 문진은 ‘증’을 예측하는 데 매우 중요합니다. 전문가는 모든 정보를 취합하여 ‘증’을 결정합니다. 한방비전문가의 경우 문진을 통해서 한의학적 진단을 하기에는 매우 어려움이 있습니다. 한방전문가 또한 ‘증’을 결정하는 것이 쉽지 않고 개개인의 역량에 따라 상이한 ‘증’으로 결정할 수 있습니다. 이에 ‘문진’ 데이터를 이용하여 분류에 효과적인 ‘random forest algorithm’을 사용했습니다. 통계적인 방법으로 ‘증’을 예측하여 한의학진단의 모호함에 대한 비판을 극복하기 위한 시도로 의미가 있기 때문에 본 논문을 소개합니다.

[논문 내용] 본 논문의 서두에서는 허·실의 ‘증’을 허증(deficiency pattern), 약허증(slightly deficiency pattern), 허실간증(between-deficiency-and excess pattern), 약실증(slightly excess pattern), 실증(excess pattern)으로 분류하고 있습니다. 그러나 본 논문에서는 해당 통계기법을 통해 허증과 실증, 2가지로 예측하여 분류하는 것을 목표로 합니다. 2006년 4월부터 2011년 12월까지 모은 1만6805건의 자료 중 초진 자료 2830건을 분석하였습니다. 한방전문가에 의해 허증(437명), 약허증(395명), 허실간증(1500명), 약실증(268명), 실증(230명)으로 진단되었습니다. 문진 항목은 전부 362개였으나, 분석에 사용한 주관적 증상은 128개입니다. 예-아니오 질문(24항목)과 VAS(Visual Analogue Scale) 질문(104항목)입니다. 이 논문에서는 허실을 목표 카테고리로 초점을 맞추고 ‘random forest algorithm(통계적 기법의 하나로 Breiman이 제안)’을 채택했습니다. 그 결과 2830명의 초진 환자 중에서 무작위로 200명(허증과 실증에서 각 100명씩)의 환자를 training data(데이터를 분류하는 알고리즘을 만드는데 사용하는 데이터)로 골랐습니다. 그리고 나머지 데이터를 해당 알고리즘에 넣어 올바르게 예측하는 지를 살펴보았습니다. (test에서의 사용을 위해 구체적으로 인정된 데이터를 test data라고 함-註).) test data의 판별비는 67.0%였습니다.
실제 사용에 충분한 예측력을 얻기 위해 data cleaning을 시도하였습니다. ‘문진’의 20항목 이상을 대답한 환자를 골라서 다시 training data와 test data로 판별한 결과 training data의 판별비는 완벽하였으며, test data의 판별비는 72.4%였습니다. 약허증과 약실증의 데이터의 판별비는 63.8%였습니다.
마지막으로 체질량지수(BMI) 데이터를 ‘문진’ 데이터에 추가하였습니다. 이 경우에 training data의 판별비는 완벽했고, test data의 판별비는 91.2%였습니다. 약허증과 약실증의 데이터의 판별비는 85.1%였습니다.
결론적으로 BMI를 포함한 문진에서 random forests를 사용하여 예측하면 매우 높은 예측률을 가지는 것을 알 수 있습니다.

[필진 의견] 처음에 허증, 약허증, 허실간증, 약실증, 실증으로 변증한 한방전문가가 완벽하게 모든 환자를 정확하게 변증할 수 없기 때문에, 처음에 분류한 데이터에 대한 신뢰가 절대적이지는 않습니다. 따라서 해당 알고리즘의 설계에 근본적 문제가 있습니다.
한의학에서 흔히 말하는 허증과 실증의 개념과 여기에서 분류한 허증과 실증의 개념이 서로 상이하기 때문에, 임상에서의 가치 및 활용도가 상당히 떨어질 수 있습니다. 또한 어떤 환자에게 있어서 ‘증’이라는 것은 복합적으로 나타나게 되는데, 이는 복합적인 자료 혹은 데이터를 취합하여 만든 것이 아닙니다. 매우 제한적인 도구이지만 임상에서 허실을 나누는데 객관적인 도구가 될 수 있을 것으로 보입니다. 하지만 한국어판이 개발되지 않아서 임상에서 적용할 때는 아직은 참고만 가능할 것으로 보입니다.
질문의 내용에 있어서도 가장 비중 있게 다루어지는 질문의 내용이 한(寒)에 대한 반응 및 전신피로에 집중되어 있는 것을 알 수 있습니다. BMI의 측정에 있어서도 단순히 (체중(kg))/(신장(m))²이기 때문에 체지방비율에 대한 세부적인 고려가 없습니다. 따라서 체지방 비율이 모델에 추가된다면 또 다른 모델이 만들어질 수도 있습니다. 이 연구가 일본에서 진행된 연구라서 일본사람과 다른 국가 사람의 경우에는 다른 결과가 나올 수 있다고 봅니다.
통계적 방법에 있어서 ‘random forest algorithm’을 사용한 이유는 많은 수의 표본을 빠른 시간 안에 정확하게 분류 및 예측하기에 가장 좋은 알고리즘 중 하나이기 때문입니다.

[링크]http://www.ncbi.nlm.nih.gov/pmc/articles/ PMC3926230/#sec1title

註- 이 내용은 논문에는 등장하지 않습니다. 독자의 이해를 돕기 위해 설명한다고 한 것이 오히려 혼란을 초래한 것 같습니다. 필요하지 않을 경우 지우셔도 상관 없을 것으로 보입니다.

12월 참여필진 : 김재은, 이지영, 임정태, 정창운
연구동향팀 필진을 모집합니다. 특히 일본어나 중국어 가능하신 분, 연구자, 전공의, 전문의 선생님의 참여 기다립니다. 기사에 대한 문의, 요청하고 싶은 주제는 editor@mjmedi.com으로
메일 보내거나 신문 홈페이지에 의견 남겨주세요.

댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.
주요기사