search for




 

Limitations of Obtaining Medical Information about Age-Related Macular Degeneration from Artificial Intelligence Chatbots
J Retin 2024;9(2):119-126
Published online November 30, 2024
© 2024 The Korean Retina Society.

Dong Gyu Na, Yi Sang Yoon, Jae Hui Kim

Department of Ophthalmology, Kim’s Eye Hospital, Seoul, Korea
Correspondence to: Jae Hui Kim, MD
Department of Ophthalmology, Kim's Eye Hospital, #136 Yeongsin-ro, Yeongdeungpo-gu, Seoul 07301, Korea
Tel: 82-2-2639-7664, Fax: 82-2-2639-7824
E-mail: kjh7997@daum.net
Received June 25, 2024; Revised July 20, 2024; Accepted July 31, 2024.
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/4.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.
Abstract
Purpose: This study aims to evaluate the quality of and trends in artificial intelligence (AI) chatbot responses to questions related to age-related macular degeneration (AMD) and to analyze the frequency of incorrect key information.
Methods: Three chatbots, ChatGPT 3.5, ChatGPT 4.0, and Gemini, were used in this study. Nine questions were formulated covering general information about: 1) AMD, 2) AMD treatment options, 3) effects and side effects of intraocular injections. Each question was queried three times with each of the three chatbots using two different accounts. Responses to items 1–3 were rated as poor/acceptable/good, and the frequency of incorrect key information was noted.
Results: Overall, the majority of the queries received acceptable or good responses. Poor-quality responses were noted in 16.7% of ChatGPT 3.5 responses. Incorrect key information was present in 6.5% of all responses.
Conclusions: While AI chatbots generally provided acceptable responses to questions regarding AMD, some responses contained incorrect key information, suggesting the need for caution when accessing medical information through AI chatbots.
Keywords : Age-related macular degeneration; Artificial intelligence; Chatbot
서론

의료 영역에서 환자들은 다양한 경로를 통해 질환에 대한 정보를 얻게 되는데, 직접 의사와의 상담을 통해 정보를 얻는 경우도 있으나 대중매체 혹은 인터넷 검색을 통해 정보를 얻는 경우도 있다. 과거 연구에서는 이러한 인터넷 정보 검색의 정확도가 높지 않다고 보고하였으나[1] 시간의 경과에 따라 검색 정보의 정확도가 지속적으로 상승하는 경향이 나타났다는 보고도 있다[2]. 인터넷이나 대중매체를 통해 환자들이 확인한 의료 정보는 그 정확도에 상관없이 진료에 있어서 환자가 내리는 결정에 영향을 미칠 수 있기에[3-5] 환자들이 정보를 얻는 경로를 확인하고 그 정확성을 평가하는 작업은 매우 중요하다고 할 수 있다.최근 대화형 인공지능(conversational artificial intelligence, 인공지능 챗봇[chatbot])의 도입과 함께 환자가 의료정보를 받아들이는 추세에는 큰 변화가 나타나고 있다. 이전에는 환자가 직접 다양한 경로를 통해 정보를 습득하고 이를 스스로 요약하여야 했던 반면, 이제는 인공지능 챗봇에게 대화 형식으로 질문을 한 후 인공지능이 수집, 요약한 정보를 간편하게 제공받을 수 있다. 인공지능 챗봇이 정보를 검색하는 방식은 기존의 검색엔진을 이용한 검색방식과 다른 것으로 알려져 있으며, 따라서 의료정보 검색의 결과 역시 다르게 나타날 수 있다[6]. 인공지능 챗봇이 제공하는 의료정보의 신뢰성에 대해서는 현재 많은 논란이 있으나[7] 향후 인공지능 챗봇의 활용이 늘어날 것으로 기대되고 있는 만큼 이를 통해 획득되는 정보의 정확성에 대해서는지속적인 평가가 필요한 상태이다.

나이관련황반변성(age-related macular degeneration)은 선진국의 주요 실명 원인이며, 향후 인구의 고령화에 따라 그 유병률이 급격하게 증가할 것으로 기대고 있다. 국내의 경우 2008–2011년 시행된 국민건강영양조사에서는 40세 이상에서 유병률이 6.62%로 확인되었으나[8] 2017–2020년 조사에서는 그 비율이 13.94%로 대폭 증가되는 결과를 보였다[9]. 향후 지속적인 국내 인구의 고령화에 따라 나이관련황반변성의 중요성은 미래에더 증대될 것으로 생각된다.

나이관련황반변성은 노화에 의한 변화가 그 원인이 되는 질환의 특성상 질환의 진행을 멈추거나 완치시키기 어려운 측면이 있기에 환자들이 느끼는 정신적인 고통이 클 수 있으며, 질환을 보다 잘 이해하고 걱정을 완화시키고자 하는 시도의 과정에서 인터넷 검색을 통해 질환에 대한 정보를 접하는 경우도 있는 것으로 알려져 있다[10]. 안과의 전반적인 분야 혹은 망막질환의 분야에서 인공지능 챗봇의 정확도를 평가한 해외 연구들이 현재 활발히 발표되고 있으나[11-15] 나이관련황반변성의 분야에서 인공지능 챗봇을 통해 획득되는 정보를 평가한 국내 연구는 전무한 실정이다. 추가적으로 현재까지의 연구는 대부분의 의학적 정보의 정확도에 초점을 맞추어 왔기에 의학적 분야는 아니나 실제 환자 입장에서 궁금할 수 있는 정보인 병원이나영양제 추천 등에 대한 인공지능 챗봇의 정보제공 방식에 대해서는 추가적인 연구가 필요한 상태이다.

본 연구에서는 나이관련황반변성으로 진단받은 환자의 입장에서 인공지능 챗봇을 활용하는 상황을 가정하여 주요 의문사항에 대한 검색을 시행하고, 답변의 품질을 평가하였다. 또한 인공지능 챗봇의 답변에 포함된 정보 중 환자가 질환의 진단과 치료를 이해하는 데 있어서 오해를 유발할 수 있는 부분에 대해 확인하고 더 나아가 병원 선택과 같은 의학 외적인 부분에 있어서 제공되는 정보의 정확성과 편향성에 대해서도 평가하고자 한다.

대상과 방법

인공지능 챗봇을 이용한 본 연구는 인간 또는 인체 유래물 연구가 아니기에 기관윤리심의위원회(Institutional Review Board)의 심의를 따로 진행하지 않았다. 대표적인 인공지능 챗봇인 ChatGPT® (OpenAI)와 Gemini® (Google Inc.)를 연구에 이용하였다. ChatGPT의 경우 무료로 이용 가능한 3.5 version과 유료로 이용하는 4.0 version을 이용하였으며, Gemini의 경우 무료 버전을 이용하였다.

황반변성으로 처음 진단받은 환자가 궁금한 내용을 인공지능 챗봇에 질의하는 상황을 가정하고 다음과 같은 다섯 항목의 9개 질문을 한글로 질의하였으며, 답변 역시 한글로 제공받았다: 1) 질환에 대한 이해 = “황반변성이 어떤 병인지 알려줘”, “황반변성으로 진단되면 실명하는지 알려줘”; 2) 질환의 치료에 대한이해 = “건성황반변성의 치료 방법을 알려줘”, “습성황반변성의치료 방법을 알려줘”; 3) 안구내 항혈관내피성장인자 치료에 대한 이해 = “습성황반변성에 대한 안구 내 주사치료의 효과를 알려줘”, “습성황반변성에 대한 안구 내 주사치료의 부작용을 알려줘”; 4) 치료약제 추천 = “건성황반변성의 환자를 위한 가장좋은 루테인 제품을 추천해 줘”, “습성황반변성 환자를 위한 주사 약제 중 가장 좋은 제품을 추천해 줘”; 5) 병원 추천 = “한국의 병원 중 황반변성 치료를 잘하는 병원을 추천해 줘”. “황반변성” 용어의 경우 “나이관련황반변성”이 더 정확한 표현이나비전문가인 환자의 입장에서 “황반변성”이라는 용어를 주로 이용하는 경향이 있을 것으로 생각되어 인공지능 챗봇에 대한 질의 시에는 “황반변성” 용어로 통일하였다.

다섯 항목 중 1–3항목의 경우 아래 두 가지 기준으로 인공지능 챗봇의 답변을 평가하였다. 1) 전반적인 답변의 품질(quality): 열악함(poor), 수용할 만함(acceptable), 훌륭함(good)의 3단계로 구분, 2) 정보가 잘못 기술되었는지 여부: 주요 정보가 잘못 기술된 경우 = 질환의 진단과 치료를 이해하는 데 있어서 중요한 정보가 잘못 표기되어 환자의 오해를 유발할 수 있는 경우, 부수적 정보가 잘못 기술된 경우 = 정보 기술에 오류가 있으나 일반적인 상황에서 큰 문제가 되지 않을 것으로 판단되는 경우. 인공지능 챗봇의 답변에 대한 평가는 두 명의 안과 전문의가 시행하였는데(Y.S.Y. and J.H.K.), 우선 각 연구자가 인공지능 답변에 대해 독립적으로 평가를 진행하였으며, 평가가 서로 일치하지 않는 경우에는 함께 의논하여 최종적인 평가 결과를 도출하였다.

비의학적 부분인 4–5 항목의 경우에는 아래와 같은 기준으로 평가를 시행하였다. 4번 항목 중 루테인 제품 추천 부분: 1) 루테인 성분을 함유한 약제를 정확하게 추천하였는지, 2) 국외 회사 제품과 국내 회사 제품의 추천 빈도; 주사 약제 제품 추천 부분: 1) 항혈관내피성장인자 약제를 정확하게 추천하였는지, 2) 각 약제 별 추천 빈도. 5번 항목: 1) 병원의 종류(상급종합병원[1,000병상 이상 vs. 1,000병상 미만], 종합병원, 안과전문병원, 의원), 2) 병원의 위치(서울, 경기도, 강원도, 충청도, 경상도, 전라도, 제주도). 모든 질문은 서로 다른 두 연구자의 계정에서 각 세 번씩 질의하였다. 결과적으로 9개의 질문이 3개의 챗봇에서 3회씩, 2개의 서로 다른 계정에서 질의 되었으므로, 총 162회 질의가 시행되었다.

제품이나 병원을 추천하는 질문의 경우 경우에 따라 인공지능 챗봇이 “추천하기 어렵다”는 답변을 하는 경우가 있는데, 이러한 경우 추천 답변을 얻을 때까지 같은 질문을 반복해서 질의하였다.

결과

질환에 대한 이해 항목에 대한 답변의 경우 인공지능 챗봇 답변의 품질은 94.4%에서 수용할 만하거나 훌륭한 결과를 보였다(Table 1). 그러나 ChatGPT 3.5의 경우 훌륭한 품질의 답변이 13.9%로 ChatGPT 4.0 (75.0%) 혹은 Gemini (63.9%)에 비해 상당히 낮은 빈도로 나타났으며, 16.7%의 답변에 있어서 품질이 열악한 것으로 판명되었다. 주요 정보가 잘못 기술된 경우(질환의 진단과 치료를 이해하는 데 있어서 중요한 정보가 잘못 표기되어 환자의 오해를 유발할 수 있는 경우)는 ChatGPT 4.0과 Gemini에서 각각 한 건씩 확인되었으며, ChatGPT 3.5의 경우에는 5건의 잘못된 기술이 확인되었다. 부수적 정보가 잘못 기술된 경우는 ChatGPT 4.0과 Gemini에서 각각 2건과 6건이 확인되었으며, ChatGPT 3.5의 경우에는 10건의 잘못된 기술이 확인되었다.

Evaluation of the artificial intelligence chatbot responses

Quality of response GhatGPT 3.5* GhatGPT 4.0* Gemini* Overall
Overall quality of response
Good 5 (13.9) 27 (75.0) 23 (63.9) 55 (50.9)
Acceptable 25 (69.4) 9 (25.0) 13 (36.1) 47 (43.5)
Poor 6 (16.7) 0 0 6 (5.6)
Incorrect key information 5 (13.9) 1 (2.8) 1 (2.8) 7 (6.5)
Incorrect ancillary information 10 (27.8) 2 (5.6) 6 (16.7) 18 (16.7)

Data were presented as number (%).

*Six questions were asked using two accounts, with each question posed three times, resulting in a total of 36 queries conducted per chatbot.



건성 나이관련황반변성과 습성 나이관련황반변성에 대한 이해 및 치료 관련 질문에 대한 답변에 있어서 인공지능 챗봇은 대부분 수용할 만한 답변을 제공하였으며, 주요 정보가 잘못 기술된 빈도는 5.6%-8.3% 정도로 높지 않았다(Table 2). 다만 ChatGPT 3.5의 경우 치료 방법에 대해 잘못 기술된 부분들이 확인되었다(Table 3). 안구 내 주사치료의 효과 및 부작용과 관련된 질문에 있어서 인공지능 챗봇 답변의 품질은 전반적으로 수용할 만하거나 훌륭한 것으로 평가되었다. 그러나 주사 부작용 관련 답변의 경우 주요 정보가 잘못 기술된 경우가 ChatGPT 3.5에서 두 건 있었다(Table 3).

Frequency of incorrect key information provided by artificial intelligence chatbots

Category of queries GhatGPT 3.5* GhatGPT 4.0* Gemini* Overall
Understanding of the disease 1 (8.3) 0 1 (8.3) 2 (5.6)
Understanding of disease treatment 2 (16.7) 0 0 2 (5.6)
Understanding of anti-VEGF therapy 2 (16.7) 1 (8.3) 0 3 (8.3)

Data were presented as number (%).

VEGF = vascular endothelial growth factor.

*Two questions from each category were asked using two accounts, with each question posed three times, resulting in a total of 12 queries conducted per chatbot for each category.



Incorrect key information identified in the artificial intelligence chatbot responses (translated from Korean to English)

Incorrect information Type of chatbot
- Neovascular age-related macular degeneration: In some severe cases, ophthalmic surgery may be necessary to correct retinal abnormalities or to control blood vessel growth. ChatGPT 3.5
- Major side effect of intraocular injection therapy: Intraocular inflammation - The inflammation is usually a reaction to the medication. ChatGPT 3.5
- Major side effect of intraocular injection therapy: Intraocular inflammation: Most cases involve minor inflammation that can resolve within a few days after the injection. ChatGPT 3.5
- Treatment options for dry age-related macular degeneration may include eye surgery, intraocular injections, and medication therapy. ChatGPT 3.5
- Laser treatment may be recommended for some patients with dry age-related macular degeneration ChatGPT 3.5
- Major side effect of intraocular injection therapy: Intraocular hemorrhage - The injection needle can damage the retina, potentially causing minor bleeding. ChatGPT 4
- Dry age-related macular degeneration: Currently, there is no treatment method available, but using high-resolution glasses can help protect vision. Gemini


건성 나이관련황반변성 환자를 위한 루테인 제품 추천의 경우 모든 질의에서 AREDS (Age-Related Eye Disease Studies) formulation에 기반한 약제를 추천하여 높은 정확도를 보였다(Table 4). 다만 총 18회의 질의에서 추천된 60개의(중복 추천 포함) 제품 중 93.3%가 국외 회사에서 생산된 제품으로, 국내 회사에서 생산한 제품을 추천하는 빈도가 매우 낮았다. 습성 나이관련황반변성에 대한 주사 치료 제품의 추천 부분에 있어서 ChatGPT 3.5의 답변 중 1회에 한해 항혈관내피성장인자가 아닌 다른 제품을 추천한 결과가 있었으나 이외에는 모든 항혈관내피성장인자 제품을 정확하게 추천하였다(Table 4). 약제 추천에 있어서 오리지널 라니비주맙(ranibizumab originator), 애플리버셉트(aflibercept), 베바시주맙(bevacizumab) 세 약제는 챗봇의 종류에 상관없이 모두 포함되었으며, ChatGPT 4와 Gemini의 경우 일부 답변에서 브롤루시주맙(brolucizumab)과 파리시맙(faricimab)까지 추천하는 결과를 보였다. 그러나 보다 최근에 도입된 애플리버셉트 8.0 mg 혹은 라니비주맙 바이오시밀러 약제에 대한 추천은 없었다. 추가적으로 약제명을 한글로 기술하는 데 있어서 오류가 자주 나타나는 경향이 있었다.

Treatments recommended by artificial intelligence chatbots for age-related macular degeneration

Category GhatGPT 3.5* GhatGPT 4.0* Gemini* Overall
Supplements for dry AMD
Products from foreign companies 18 (90.0) 20 (100) 18 (90.0) 56 (93.3)
Products from domestic companies 2 (10.0) 0 2 (10.0) 4 (6.7)
Anti-VEGF drug for neovascular AMD
Ranibizumab (originator) 6 (28.6) 6 (28.6) 6 (28.6) 18 (28.6)
Aflibercept 6 (28.6) 6 (28.6) 6 (28.6) 18 (28.6)
Bevacizumab 6 (28.6) 6 (28.6) 5 (23.8) 17 (26.9)
Brolucizumab 2 (9.5) 2 (9.5) 2 (9.5) 6 (9.5)
Faricimab 0 1 (4.8) 2 (9.5) 3 (4.8)
Aflibercept 8.0 mg 0 0 0 0
Ranibizumab biosimilar 0 0 0 0
Others (non-anti-VEGF) 1 (4.8) 0 0 1 (1.6)

Data were presented as number (%).

AMD = age-related macular degeneration; VEGF = vascular endothelial growth factor.

*One question was asked using two accounts, each question posed three times, resulting in a total of 6 queries conducted per each chatbot.



국내 병원을 추천하는 질문에 있어서 전체 답변의 87.4%에서 1,000병상 이상의 대형 상급종합병원을 추천하였으며, 병원 소재 지역 역시 서울이 전체의 80.7%였다(Table 5). 서울 소재 1,000병상 이상 상급종합병원에 대한 추천이 75.0%로 나타났으며, 일부에서 경기도와 경상도의 대형 상급병원이 추천되었다. 전문병원이나 의원에 대한 추천은 없었으며, 충청도, 전라도, 강원도, 제주도 지역 병원에 대한 추천 역시 없었다.

Type and location of hospitals recommended by artificial intelligence chatbots

Category GhatGPT 3.5* GhatGPT 4.0* Gemini* Overall
Type of hospital
Tertiary general hospital
≥ 1,000 beds 21 (91.3) 29 (96.7) 26 (76.5) 76 (87.4)
< 1,000 beds 1 (4.3) 1 (3.3) 3 (8.8) 5 (5.7)
General hospital 0 0 0 0
Specialized hospital 0 0 0 0
Clinic 0 0 0 0
Unclassifiable 1 (4.3) 0 5 (14.7) 6 (6.9)
Location of Hospital
Seoul 20 (83.3) 27 (90.0) 24 (70.6) 71 (80.7)
Gyeonggi-do 0 0 3 (8.8) 3 (3.4)
Chungcheong-do 0 0 0 0
Gyeongsang-do 2 (8.3) 3 (10.0) 2 (5.9) 7 (7.9)
Jeolla-do 0 0 0 0
Gangwon-do or Jeju-do 0 0 0 0
Unclassifiable 2 (8.3) 0 5 (14.7) 7 (7.9)

Data were presented as number (%).

*One question was asked using two accounts, each question posed three times, resulting in a total of 6 queries conducted per each chatbot.


고찰

의료 분야에서 인공지능은 의료진이 질환을 더 정확하게 진단하고 보다 나은 치료방침을 정하는 데 있어서 기여를 할 수 있을 것으로 기대되어 왔다[16]. 최근 인공지능 챗봇이 도입되며, 보다 쉽게 인공지능의 도움을 받을 수 있는 시대가 도래하였으며, 의료 영역에서 인공지능 챗봇의 활용에 대한 논의들이 활발히 진행되었다. 안과 분야의 경우 비록 챗봇의 종류에 따라 일부 차이가 있으나 인공지능 챗봇들이 환자 치료방침 결정에 있어서 어느 정도 정확한 정보를 제공할 수 있다는 결과들[12,13]이 최근 발표되었다. 더 나아가 안과의사 자격시험 문제와 같은전문적인 분야에서도 인공지능 챗봇은 71% 이상에서 정확한 답변을 제공하였는데[15], 안과 내의 각 전문 분야에 따라 답변의정확도에 차이가 나는 것으로 나타났다.

의료진뿐 아니라 환자들 역시 인공지능 챗봇을 이용하여 보다 수월하게 의료정보를 검색할 수 있기에 환자들의 질문에 대한 챗봇들의 답변 정확도를 확인하는 연구는 큰 의미를 가질수 있다. Ayers et al. [17]은 소셜미디어에 게시된 환자들의 질문에 대한 인공지능 챗봇들의 답변이 상당히 정확할 뿐 아니라 마치 사람과 같은 공감하는(empathetic) 어조의 답변 역시 제공하였다고 보고하였다. 눈 관리와 관련한 환자들의 질문에 대한 인공지능 챗봇들의 답변을 분석한 Bernstein et al. [11]의 연구에서는 21%는 마치 사람이 답변한 것과 같이 인식되었으며, 실제 사람이 작성한 답변과 비교하였을 때 정보의 정확도는 비슷한 것으로 나타났다. Desideri et al. [14]은 황반변성 환자들이 흔히 하는 질문에 대해 챗봇들이 비교적 정확한 답변을 할 수 있는 것으로 보고하였는데, 여러 챗봇 중 ChatGPT가 75% 이상의 질문에서 정확하게 답변하여 가장 높은 정확도를 보인 것으로 나타났다.

비록 인공지능 챗봇이 의료 관련 물음에 대하여 상당히 정확한 답변을 할 수 있다 하더라도 챗봇들은 보조적인 역할을 수행할 뿐이며, 실제 의료 전문가를 대체할 수는 없다[18]. 그러나 몇몇 설문조사 결과에 따르면 여전히 대부분의 대중과 환자들은 AI보다 의사를 더 신뢰하지만, 소수에서는 AI를 더 신뢰하는 경우도 있었는데[19,20], 비록 소수라도 AI를 더 신뢰하는 사람들이 존재한다는 사실은 실제 질환을 치료하는 의사의 입장에서 큰 부담이 될 수 있다. 예를 들어 치료 도중 이상반응이 발생한 경우 환자나 보호자가 인공지능 챗봇을 통해 얻은 잘못된 정보를 토대로 약제에 문제가 있거나 의료진의 실책이 있었다고 주장할 수도 있으며, 치료 방법이나 결과가 인공지능 챗봇이 제시한 정보와 달랐을 경우 의료진이 치료를 제대로 시행하지 않았다고 의심할 수도 있는 것이다. 결과적으로 챗봇이 제공한 잘못된 정보는 의사-환자 관계에 악영향을 미칠 수 있으며,불필요한 문제들을 야기할 수 있다. 이와 같은 실제 진료에서의 중요성에도 불구하고 아직까지 인공지능 챗봇의 성능을 평가하는 데 있어서 환자에게 오해를 유발할 수 있는 정보에 대한 확인은 관련 연구에서 주요한 평가 지표로 이용되지 않고 있는 상태이다.

안과 영역에서 인공지능 챗봇과 관련된 연구들은 주로 해외에서 진행되어 왔는데, 인공지능 챗봇은 훈련한 데이터와 패턴을 기반으로 응답을 생성하기에 언어에 따라 다른 결과를 도출할 수 있다. 따라서 가장 널리 학습되는 언어인 영어를 이용하여 질의한 결과와 한글을 이용하여 질의한 결과에는 차이가 나타날 수 있을 것으로 추측된다. 본 연구의 경우 한글을 이용하여 질의하고 한글로 챗봇의 답변을 받았으므로 본 연구에서 나타난 인공지능 챗봇의 답변은 영어로 질의하고 응답하였을 때와는 다를 수 있을 것이다. 다만 국내 황반변성 환자들의 경우 60세 이상의 고령인 경우가 많아[9] 한글이 아닌 다른 언어를 이용하여 인공지능 챗봇을 이용하기 어려울 수 있으므로 한글을 이용하여 검색한 결과의 정확성에 대한 평가는 큰 의미를 가진다.본 연구에서는 환자의 접근성이 높으며, 널리 이용되는 대표적인 인공지능 챗봇인 ChatGPT와 Gemini를 이용한 황반변성 관련 정보 검색의 정확도를 평가하였는데, 이들 챗봇은 황반변성 관련 질문에 대하여 전반적으로 의학적인 지식과 상당히 일치하는 수용할 만하거나 훌륭한 답변을 제공하였다. 세 가지 서로 다른 종류의 챗봇 중에서는 ChatGPT 4에서 훌륭한 품질의 답변이 가장 많이 나타난 결과를 보였다. ChatGPT 3.5의 경우 주요 정보가 잘못 기술된 빈도가 가장 높았으며, 열악한 품질의 답변 역시 다른 종류의 챗봇에 비해 상대적으로 높은 빈도로 나타났다. ChatGPT 3.5의 경우 현재 무료로 이용이 가능하기에 ChatGPT 4.0에 비해 환자/보호자의 접근성이 높다. 따라서 ChatGPT 3.5 답변의 정확도가 상대적으로 낮다는 본 연구의 결과는 실제 의료 현장에서 인공지능 챗봇이 부정적인 영향을 미칠 수 있음을 보다 강하게 시사하는 결과라 할 수 있다.인공지능 챗봇의 답변 중 일부에서는 잘못된 정보가 함께 제공되었는데, 비록 소수이긴 하지만 환자에게 불필요한 오해를 일으킬 수 있는 내용이 포함된 경우도 있었다. 예를 들어 안구 내 주사치료의 부작용을 설명하는 부분에서 “염증은 보통 약물의 반응으로 인한 것이며”라는 답변의 경우 약제에 의해 염증이 발생하였다는 오해를 유발할 수 있다. 항혈관내피성장인자 약제 중 브롤루시주맙(brolucizumab)의 경우 타 약제에 비해비교적 높은 안구 내 염증반응이 나타나는 경향이 있어[21,22]약제 자체의 특성이 염증의 발생에 영향을 줄 수 있을 것으로추측되고 있으나 이러한 추측을 모든 약제에 일관되게 적용할수는 없다. 주사 시술 후 나타나는 염증 반응은 드물지만, 감염에 의한 것일 수도 있으며, 명확한 원인을 확인하기 어려운 경우가 더 많다.

“안구 내 출혈”의 경우 주사치료의 주요 부작용이 아님에도 주요 부작용으로 기술되어 있어 습성 나이관련황반변성 치료 과정에서 드물지 않게 경험할 수 있는 망막하출혈의 발생[23]이 마치 주사치료의 부작용인 것처럼 오해를 유발할 가능성이있다. 더 나아가 안구 내 출혈의 원인을 설명하는 부분에서 “주사 바늘이 망막에 손상을 입힐 수 있으며”라는 문구 또한 마치술자의 실수로 인해 주삿바늘이 망막을 직접 찔러 출혈이 발생하였다는 오해를 유발할 수 있는 표현이다. “습성 나이관련황반변성에서 망막의 이상을 수정하거나 혈관 성장을 제어하기 위해 수술이 필요할 수 있다”는 문장이 ChatGPT 3.5의 답변에서확인되었는데, 이러한 표현은 일반적인 습성 나이관련황반변성의 치료 방식과 많은 차이가 있으며, 환자로 하여금 수술을 통해 질환을 치료할 수 있다는 잘못된 기대를 갖게 할 수 있는 표현으로 판단된다.

인공지능 챗봇이 잘못된 답변을 하는 데에는 학습의 부족이나 알고리즘 자체의 문제, 부정확한 정보를 그럴듯하게 지어내는 인공지능 환각(AI hallucination) 등 다양한 원인이 관여할수 있으나 습득한 정보 자체가 잘못된 경우 역시 그 원인 중 하나가 될 수 있을 것이다. 실제 웹(web)에 게시되는 의료 관련 정보들은 정확도가 떨어지는 경우가 적지 않은 것으로 알려져 있어[24] 부정확한 정보는 웹의 정보를 기반으로 답변을 생성하는인공지능 챗봇의 답변 정확도에 악영향을 미칠 수 있다. 따라서 장기적으로 인공지능 챗봇이 의료 관련 부정확한 답변을 하는 빈도를 줄이기 위해서는 웹에 게시되는 부정확한 의료 정보를 최소화하기 위한 전문가들의 노력이 필요할 것이다.

나이관련황반변성 환자들이 널리 복용하는 약제인 AREDS formulation 제품 추천의 경우 관련 제품들을 정확하게 추천하였으나 질의를 통해 추천된 제품들 중 해외 제조사의 제품이 90% 이상이었으며, 국내 생산 제품들에 대한 추천 빈도가 현저히 낮은 특징이 있었다.

항혈관내피성장인자 주사치료 약제 추천의 경우 관련 약제를 정확하게 추천하기는 하였으나 도입된 지 상당 기간이 경과한 라니비주맙, 애플리버셉트, 베바시주맙만 약제가 주로 추천되었으며, 2020년 도입된 브롤루시주맙과 2022년 도입된 파리시맙의 경우 일부 답변에서만 추천되었다. 2023년 도입된 aflibercept 8.0 mg에 대한 추천은 없었고, 역시 최근 도입된 라니비주맙 바이오시밀러 약제들 역시 따로 추천되지 않았다. 도입된 지 시간이 오래 경과하여 인공지능 학습에 더 많은 자료를 얻을 수 있었던 제품들을 챗봇이 주로 추천한 데에서 이러한 경향이 비롯되었을 것으로 추측된다.

의료 비전문가인 환자 혹은 보호자의 입장에서 황반변성이 의심된다는 이야기를 들었을 때 가장 궁금한 점 중 하나는 “어느 병원에 방문하여 확진을 받고 치료를 시행 받을 것인가?”라는 부분일 것이다. 이러한 의문을 해결하기 위해 환자나 보호자는 전문가의 의견에 더해 주변의 추천이나 온라인 카페 혹은 포털 사이트의 질문 게시판 등 다양한 통로를 이용하여 정보를 획득할 것으로 추측된다. 본 연구에서 인공지능 챗봇의 병원 추천에는 뚜렷한 경향성이 확인되었는데, 대부분의 답변에서 서울에 소재한 규모가 큰 상급종합병원들을 추천하였다는 것이다. 이들 상급종합병원들의 규모가 큰 만큼 의료 관련 정보를 더 많이 생산하고 홍보해 온 것이 이러한 경향이 나타난 원인 중 하나일 것으로 추측된다.

암과 같은 중증질환에서는 이미 대형 상급종합병원으로의 환자 쏠림 현상이 나타나고 있다[25]. 황반변성 분야에서 인공지능챗봇이 서울 지역 대형병원 위주로 병원을 추천하는 경향이 지속된다면 챗봇의 답변을 참고하여 병원을 선택하는 환자들이늘어날수록 이들 대형 병원으로의 환자 쏠림 현상이 더 가속화될 가능성을 배제할 수 없을 것이다.

본 연구의 제한점은 다음과 같다. 첫째, 본 연구에서는 황반변성 관련 질문 9개를 임의로 선정하여 인공지능 챗봇에게 질의하였기에 황반변성의 영역에서 제기될 수 있는 많은 질문 중 일부에 대한 답변만을 확인할 수 있었다. 둘째, 3종류의 챗봇만을 이용하여 연구를 진행하였기에 본 연구에서 도출된 결과를 다른 인공지능 챗봇에 적용하기는 어려울 것이다. 셋째, 인공지능 챗봇의 답변 정확도를 평가하는 데 있어서 객관적이고 명확한 기준이 따로 마련되어 있지 않았으며, 연구자들이 임의로 평가하였다는 점 역시 본 연구의 주요 제한점이라 할 수 있다. 넷째, 인공지능 챗봇은 지속적으로 학습을 진행하며 그 성능을 변화시킬 수 있기에 미래에 더 성능이 향상된 챗봇은 본 연구에서와는 다른 답변을 제공할 수도 있을 것이다. 마지막으로 인공지능 챗봇이 “추천하기 어렵다”는 의미의 답변을 한 경우 이를 따로 분류하지 않고 다시 검색을 시행하였는데, 이 답변 역시 전문가의 시각에서는 수용 가능한 답변일 수 있을 것이다. 향후 추가적인 연구를 통해 이러한 답변이 나타나는 빈도 등에 대한 평가가 필요할 것이다.

요약하면, 본 연구에서는 황반변성과 관련된 질문에서 인공지능 챗봇의 답변의 정확도와 경향성을 평가하였다. 대부분의 경우 챗봇은 수용할 만하거나 훌륭한 답변을 하였으나 일부 답변의 경우 잘못된 정보를 제공하는 경우도 있었으며, 챗봇의 종류에 따라 답변의 품질에 차이가 나타났다. 약제를 추천의 경우 도입된 지 상당히 시간이 경과하였거나 해외에서 생산된 제품을 주로 추천하는 경향이 있었으며, 병원 추천의 경우 서울에 위치한 대형 상급종합병원 위주로 추천하는 경향이 있었다. 향후 안과 영역에서 환자들의 인공지능 챗봇 이용이 늘어날 것으로 기대되고 있으므로 관련 분야에 대한 지속적인 연구와 함께, 이러한 추세에 뒤따르는 부작용을 최소화하기 위한 전문가들의 대응이 필요할 것이다.

Conflicts of Interest

The authors declare no conflicts of interest relevant to this article.

Author Contribution

Conception (J.H.K.); Design (J.H.K.); Data acquisition (D.G.N., Y.S.Y., J.H.K.); Analysis (D.G.N., Y.S.Y., J.H.K.); in-terpretation (D.G.N., Y.S.Y., J.H.K.); writing (D.G.N., Y.S.Y., J.H.K.); review (D.G.N., Y.S.Y., J.H.K.); Final approval of the article (D.G.N., Y.S.Y., J.H.K.)

References
  1. Yeung TM, Mortensen NJ. Assessment of the quality of patient-orientated Internet information on surgery for diverticular disease. Dis Colon Rectum 2012;55:85-9.
    Pubmed CrossRef
  2. Kothari M, Moolani S. Reliability of "Google" for obtaining medical information. Indian J Ophthalmol 2015;63:267-9.
    Pubmed KoreaMed CrossRef
  3. Stukus DR. How Dr Google is impacting parental medical decision making. Immunol Allergy Clin North Am 2019;39:583-91.
    Pubmed CrossRef
  4. Agarwala A, Kohli P, Virani SS. Popular media and cardiovascular medicine: "with great power there must also come great responsibility". Curr Atheroscler Rep 2019;21:43.
    Pubmed CrossRef
  5. Mohamed F, Shoufan A. Users' experience with health-related content on YouTube: an exploratory study. BMC Public Health 2024;24:86.
    Pubmed KoreaMed CrossRef
  6. Shen OY, Pratap JS, Li X, Chen NC, Bhashyam AR. How does ChatGPT use source information compared with Google? A text network analysis of online health information. Clin Orthop Relat Res 2004;482:578-88.
    Pubmed CrossRef
  7. Webster P. Medical AI chatbots: are they safe to talk to patients?. Nat Med 2023;29:2677-9.
    Pubmed CrossRef
  8. Park SJ, Lee JH, Woo SJ, et al. Age-related macular degeneration: prevalence and risk factors from Korean National Health and Nutrition Examination Survey, 2008 through 2011. Ophthalmology 2014;121:1756-65.
    Pubmed CrossRef
  9. Song MY, Kim Y, Han K, Kim JH. Prevalence and risk factors of age-related macular degeneration in South Korea: Korea National Health and Nutrition Examination Survey. Ophthalmic Epidemiol 2024:1-10.
    Pubmed CrossRef
  10. Taylor DJ, Jones L, Binns AM, Crabb DP. 'Yoúve got dry macular degeneration, end of story': a qualitative study into the experience of living with non-neovascular age-related macular degeneration. Eye (Lond) 2020;34:461-73.
    Pubmed KoreaMed CrossRef
  11. Bernstein IA, Zhang YV, Govil D, et al. Comparison of ophthalmologist and large language model chatbot responses to online patient eye care questions. JAMA Netw Open 2023;6:e2330320.
    Pubmed KoreaMed CrossRef
  12. Carlà MM, Gambini G, Baldascino A, et al. Large language models as assistance for glaucoma surgical cases: a ChatGPT vs. Google Gemini comparison. Graefes Arch Clin Exp Ophthalmol 2024;262:2945-59.
    Pubmed KoreaMed CrossRef
  13. Carlà MM, Gambini G, Baldascino A, et al. Exploring AI-chatbots' capability to suggest surgical planning in ophthalmology: ChatGPT versus Google Gemini analysis of retinal detachment cases. Br J Ophthalmol 2024;108:1457-69.
    Pubmed CrossRef
  14. Ferro Desideri L, Roth J, Zinkernagel M, Anguita R. "Application and accuracy of artificial intelligence-derived large language models in patients with age related macular degeneration". Int J Retina Vitreous 2023;9:71.
    Pubmed KoreaMed CrossRef
  15. Mihalache A, Grad J, Patil NS, et al. Google Gemini and Bard artificial intelligence chatbot performance in ophthalmology knowledge assessment. Eye (Lond) 2024;38:2530-5.
    Pubmed CrossRef
  16. King MR. The future of AI in medicine: A perspective from a chatbot. Ann Biomed Eng 2023;51:291-5.
    Pubmed CrossRef
  17. Ayers JW, Poliak A, Dredze M, et al. Comparing physician and artificial intelligence chatbot responses to patient questions posted to a public social media forum. JAMA Intern Med 2023;183:589-96.
    Pubmed KoreaMed CrossRef
  18. Momenaei B, Mansour HA, Kuriyan AE, et al. ChatGPT enters the room: what it means for patient counseling, physician education, academics, and disease management. Curr Opin Ophthalmol 2024;35:205-9.
    Pubmed CrossRef
  19. Robertson C, Woods A, Bergstrand K, Findley J, Balser C, Slepian MJ. Diverse patients' attitudes towards Artificial Intelligence (AI) in diagnosis. PLOS Digit Health 2023;2:e0000237.
    Pubmed KoreaMed CrossRef
  20. Yakar D, Ongena YP, Kwee TC, Haan M. Do people favor artificial intelligence over physicians? A survey among the general population and their view on artificial intelligence in medicine. Value Health 2022;25:374-81.
    Pubmed CrossRef
  21. Lee CH, Chun J, Lee SM, Kang HG, Lee J, Kim M. Retinal vasculitis following intravitreal brolucizumab injection: The first report in South Korea. J Retin 2022;7:59-64.
    CrossRef
  22. Kim DJ, Jin KW, Han JM, et al. Short-term safety and efficacy of intravitreal brolucizumab injections for neovascular age-related macular degeneration: A multicenter retrospective real-world study. Ophthalmologica 2023;246:192-202.
    Pubmed CrossRef
  23. Cho JH, Ryoo NK, Cho KH, Park SJ, Park KH, Woo SJ. Incidence rate of massive submacular hemorrhage and its risk factors in polypoidal choroidal vasculopathy. Am J Ophthalmol 2016;169:79-88.
    Pubmed CrossRef
  24. Rothrock SG, Rothrock AN, Swetland SB, et al. Quality, trustworthiness, readability, and accuracy of medical information regarding common pediatric emergency medicine-related complaints on the Web. J Emerg Med 2019;57:469-77.
    Pubmed CrossRef
  25. Cho S, Chang Y, Kim Y. Cancer patients' utilization of tertiary hospitals in Seoul before and after the benefit expansion policy. J Prev Med Public Health 2019;52:41-50.
    Pubmed KoreaMed CrossRef


November 2024, 9 (2)
Full Text(PDF) Free

Social Network Service
Services

Cited By Articles
  • CrossRef (0)
  • CrossMark
  • Crossref TDM