
의료 영역에서 환자들은 다양한 경로를 통해 질환에 대한 정보를 얻게 되는데, 직접 의사와의 상담을 통해 정보를 얻는 경우도 있으나 대중매체 혹은 인터넷 검색을 통해 정보를 얻는 경우도 있다. 과거 연구에서는 이러한 인터넷 정보 검색의 정확도가 높지 않다고 보고하였으나[1] 시간의 경과에 따라 검색 정보의 정확도가 지속적으로 상승하는 경향이 나타났다는 보고도 있다[2]. 인터넷이나 대중매체를 통해 환자들이 확인한 의료 정보는 그 정확도에 상관없이 진료에 있어서 환자가 내리는 결정에 영향을 미칠 수 있기에[3-5] 환자들이 정보를 얻는 경로를 확인하고 그 정확성을 평가하는 작업은 매우 중요하다고 할 수 있다.최근 대화형 인공지능(conversational artificial intelligence, 인공지능 챗봇[chatbot])의 도입과 함께 환자가 의료정보를 받아들이는 추세에는 큰 변화가 나타나고 있다. 이전에는 환자가 직접 다양한 경로를 통해 정보를 습득하고 이를 스스로 요약하여야 했던 반면, 이제는 인공지능 챗봇에게 대화 형식으로 질문을 한 후 인공지능이 수집, 요약한 정보를 간편하게 제공받을 수 있다. 인공지능 챗봇이 정보를 검색하는 방식은 기존의 검색엔진을 이용한 검색방식과 다른 것으로 알려져 있으며, 따라서 의료정보 검색의 결과 역시 다르게 나타날 수 있다[6]. 인공지능 챗봇이 제공하는 의료정보의 신뢰성에 대해서는 현재 많은 논란이 있으나[7] 향후 인공지능 챗봇의 활용이 늘어날 것으로 기대되고 있는 만큼 이를 통해 획득되는 정보의 정확성에 대해서는지속적인 평가가 필요한 상태이다.
나이관련황반변성(age-related macular degeneration)은 선진국의 주요 실명 원인이며, 향후 인구의 고령화에 따라 그 유병률이 급격하게 증가할 것으로 기대고 있다. 국내의 경우 2008–2011년 시행된 국민건강영양조사에서는 40세 이상에서 유병률이 6.62%로 확인되었으나[8] 2017–2020년 조사에서는 그 비율이 13.94%로 대폭 증가되는 결과를 보였다[9]. 향후 지속적인 국내 인구의 고령화에 따라 나이관련황반변성의 중요성은 미래에더 증대될 것으로 생각된다.
나이관련황반변성은 노화에 의한 변화가 그 원인이 되는 질환의 특성상 질환의 진행을 멈추거나 완치시키기 어려운 측면이 있기에 환자들이 느끼는 정신적인 고통이 클 수 있으며, 질환을 보다 잘 이해하고 걱정을 완화시키고자 하는 시도의 과정에서 인터넷 검색을 통해 질환에 대한 정보를 접하는 경우도 있는 것으로 알려져 있다[10]. 안과의 전반적인 분야 혹은 망막질환의 분야에서 인공지능 챗봇의 정확도를 평가한 해외 연구들이 현재 활발히 발표되고 있으나[11-15] 나이관련황반변성의 분야에서 인공지능 챗봇을 통해 획득되는 정보를 평가한 국내 연구는 전무한 실정이다. 추가적으로 현재까지의 연구는 대부분의 의학적 정보의 정확도에 초점을 맞추어 왔기에 의학적 분야는 아니나 실제 환자 입장에서 궁금할 수 있는 정보인 병원이나영양제 추천 등에 대한 인공지능 챗봇의 정보제공 방식에 대해서는 추가적인 연구가 필요한 상태이다.
본 연구에서는 나이관련황반변성으로 진단받은 환자의 입장에서 인공지능 챗봇을 활용하는 상황을 가정하여 주요 의문사항에 대한 검색을 시행하고, 답변의 품질을 평가하였다. 또한 인공지능 챗봇의 답변에 포함된 정보 중 환자가 질환의 진단과 치료를 이해하는 데 있어서 오해를 유발할 수 있는 부분에 대해 확인하고 더 나아가 병원 선택과 같은 의학 외적인 부분에 있어서 제공되는 정보의 정확성과 편향성에 대해서도 평가하고자 한다.
인공지능 챗봇을 이용한 본 연구는 인간 또는 인체 유래물 연구가 아니기에 기관윤리심의위원회(Institutional Review Board)의 심의를 따로 진행하지 않았다. 대표적인 인공지능 챗봇인 ChatGPT® (OpenAI)와 Gemini® (Google Inc.)를 연구에 이용하였다. ChatGPT의 경우 무료로 이용 가능한 3.5 version과 유료로 이용하는 4.0 version을 이용하였으며, Gemini의 경우 무료 버전을 이용하였다.
황반변성으로 처음 진단받은 환자가 궁금한 내용을 인공지능 챗봇에 질의하는 상황을 가정하고 다음과 같은 다섯 항목의 9개 질문을 한글로 질의하였으며, 답변 역시 한글로 제공받았다: 1) 질환에 대한 이해 = “황반변성이 어떤 병인지 알려줘”, “황반변성으로 진단되면 실명하는지 알려줘”; 2) 질환의 치료에 대한이해 = “건성황반변성의 치료 방법을 알려줘”, “습성황반변성의치료 방법을 알려줘”; 3) 안구내 항혈관내피성장인자 치료에 대한 이해 = “습성황반변성에 대한 안구 내 주사치료의 효과를 알려줘”, “습성황반변성에 대한 안구 내 주사치료의 부작용을 알려줘”; 4) 치료약제 추천 = “건성황반변성의 환자를 위한 가장좋은 루테인 제품을 추천해 줘”, “습성황반변성 환자를 위한 주사 약제 중 가장 좋은 제품을 추천해 줘”; 5) 병원 추천 = “한국의 병원 중 황반변성 치료를 잘하는 병원을 추천해 줘”. “황반변성” 용어의 경우 “나이관련황반변성”이 더 정확한 표현이나비전문가인 환자의 입장에서 “황반변성”이라는 용어를 주로 이용하는 경향이 있을 것으로 생각되어 인공지능 챗봇에 대한 질의 시에는 “황반변성” 용어로 통일하였다.
다섯 항목 중 1–3항목의 경우 아래 두 가지 기준으로 인공지능 챗봇의 답변을 평가하였다. 1) 전반적인 답변의 품질(quality): 열악함(poor), 수용할 만함(acceptable), 훌륭함(good)의 3단계로 구분, 2) 정보가 잘못 기술되었는지 여부: 주요 정보가 잘못 기술된 경우 = 질환의 진단과 치료를 이해하는 데 있어서 중요한 정보가 잘못 표기되어 환자의 오해를 유발할 수 있는 경우, 부수적 정보가 잘못 기술된 경우 = 정보 기술에 오류가 있으나 일반적인 상황에서 큰 문제가 되지 않을 것으로 판단되는 경우. 인공지능 챗봇의 답변에 대한 평가는 두 명의 안과 전문의가 시행하였는데(Y.S.Y. and J.H.K.), 우선 각 연구자가 인공지능 답변에 대해 독립적으로 평가를 진행하였으며, 평가가 서로 일치하지 않는 경우에는 함께 의논하여 최종적인 평가 결과를 도출하였다.
비의학적 부분인 4–5 항목의 경우에는 아래와 같은 기준으로 평가를 시행하였다. 4번 항목 중 루테인 제품 추천 부분: 1) 루테인 성분을 함유한 약제를 정확하게 추천하였는지, 2) 국외 회사 제품과 국내 회사 제품의 추천 빈도; 주사 약제 제품 추천 부분: 1) 항혈관내피성장인자 약제를 정확하게 추천하였는지, 2) 각 약제 별 추천 빈도. 5번 항목: 1) 병원의 종류(상급종합병원[1,000병상 이상 vs. 1,000병상 미만], 종합병원, 안과전문병원, 의원), 2) 병원의 위치(서울, 경기도, 강원도, 충청도, 경상도, 전라도, 제주도). 모든 질문은 서로 다른 두 연구자의 계정에서 각 세 번씩 질의하였다. 결과적으로 9개의 질문이 3개의 챗봇에서 3회씩, 2개의 서로 다른 계정에서 질의 되었으므로, 총 162회 질의가 시행되었다.
제품이나 병원을 추천하는 질문의 경우 경우에 따라 인공지능 챗봇이 “추천하기 어렵다”는 답변을 하는 경우가 있는데, 이러한 경우 추천 답변을 얻을 때까지 같은 질문을 반복해서 질의하였다.
질환에 대한 이해 항목에 대한 답변의 경우 인공지능 챗봇 답변의 품질은 94.4%에서 수용할 만하거나 훌륭한 결과를 보였다(Table 1). 그러나 ChatGPT 3.5의 경우 훌륭한 품질의 답변이 13.9%로 ChatGPT 4.0 (75.0%) 혹은 Gemini (63.9%)에 비해 상당히 낮은 빈도로 나타났으며, 16.7%의 답변에 있어서 품질이 열악한 것으로 판명되었다. 주요 정보가 잘못 기술된 경우(질환의 진단과 치료를 이해하는 데 있어서 중요한 정보가 잘못 표기되어 환자의 오해를 유발할 수 있는 경우)는 ChatGPT 4.0과 Gemini에서 각각 한 건씩 확인되었으며, ChatGPT 3.5의 경우에는 5건의 잘못된 기술이 확인되었다. 부수적 정보가 잘못 기술된 경우는 ChatGPT 4.0과 Gemini에서 각각 2건과 6건이 확인되었으며, ChatGPT 3.5의 경우에는 10건의 잘못된 기술이 확인되었다.
건성 나이관련황반변성과 습성 나이관련황반변성에 대한 이해 및 치료 관련 질문에 대한 답변에 있어서 인공지능 챗봇은 대부분 수용할 만한 답변을 제공하였으며, 주요 정보가 잘못 기술된 빈도는 5.6%-8.3% 정도로 높지 않았다(Table 2). 다만 ChatGPT 3.5의 경우 치료 방법에 대해 잘못 기술된 부분들이 확인되었다(Table 3). 안구 내 주사치료의 효과 및 부작용과 관련된 질문에 있어서 인공지능 챗봇 답변의 품질은 전반적으로 수용할 만하거나 훌륭한 것으로 평가되었다. 그러나 주사 부작용 관련 답변의 경우 주요 정보가 잘못 기술된 경우가 ChatGPT 3.5에서 두 건 있었다(Table 3).
건성 나이관련황반변성 환자를 위한 루테인 제품 추천의 경우 모든 질의에서 AREDS (Age-Related Eye Disease Studies) formulation에 기반한 약제를 추천하여 높은 정확도를 보였다(Table 4). 다만 총 18회의 질의에서 추천된 60개의(중복 추천 포함) 제품 중 93.3%가 국외 회사에서 생산된 제품으로, 국내 회사에서 생산한 제품을 추천하는 빈도가 매우 낮았다. 습성 나이관련황반변성에 대한 주사 치료 제품의 추천 부분에 있어서 ChatGPT 3.5의 답변 중 1회에 한해 항혈관내피성장인자가 아닌 다른 제품을 추천한 결과가 있었으나 이외에는 모든 항혈관내피성장인자 제품을 정확하게 추천하였다(Table 4). 약제 추천에 있어서 오리지널 라니비주맙(ranibizumab originator), 애플리버셉트(aflibercept), 베바시주맙(bevacizumab) 세 약제는 챗봇의 종류에 상관없이 모두 포함되었으며, ChatGPT 4와 Gemini의 경우 일부 답변에서 브롤루시주맙(brolucizumab)과 파리시맙(faricimab)까지 추천하는 결과를 보였다. 그러나 보다 최근에 도입된 애플리버셉트 8.0 mg 혹은 라니비주맙 바이오시밀러 약제에 대한 추천은 없었다. 추가적으로 약제명을 한글로 기술하는 데 있어서 오류가 자주 나타나는 경향이 있었다.
국내 병원을 추천하는 질문에 있어서 전체 답변의 87.4%에서 1,000병상 이상의 대형 상급종합병원을 추천하였으며, 병원 소재 지역 역시 서울이 전체의 80.7%였다(Table 5). 서울 소재 1,000병상 이상 상급종합병원에 대한 추천이 75.0%로 나타났으며, 일부에서 경기도와 경상도의 대형 상급병원이 추천되었다. 전문병원이나 의원에 대한 추천은 없었으며, 충청도, 전라도, 강원도, 제주도 지역 병원에 대한 추천 역시 없었다.
의료 분야에서 인공지능은 의료진이 질환을 더 정확하게 진단하고 보다 나은 치료방침을 정하는 데 있어서 기여를 할 수 있을 것으로 기대되어 왔다[16]. 최근 인공지능 챗봇이 도입되며, 보다 쉽게 인공지능의 도움을 받을 수 있는 시대가 도래하였으며, 의료 영역에서 인공지능 챗봇의 활용에 대한 논의들이 활발히 진행되었다. 안과 분야의 경우 비록 챗봇의 종류에 따라 일부 차이가 있으나 인공지능 챗봇들이 환자 치료방침 결정에 있어서 어느 정도 정확한 정보를 제공할 수 있다는 결과들[12,13]이 최근 발표되었다. 더 나아가 안과의사 자격시험 문제와 같은전문적인 분야에서도 인공지능 챗봇은 71% 이상에서 정확한 답변을 제공하였는데[15], 안과 내의 각 전문 분야에 따라 답변의정확도에 차이가 나는 것으로 나타났다.
의료진뿐 아니라 환자들 역시 인공지능 챗봇을 이용하여 보다 수월하게 의료정보를 검색할 수 있기에 환자들의 질문에 대한 챗봇들의 답변 정확도를 확인하는 연구는 큰 의미를 가질수 있다. Ayers et al. [17]은 소셜미디어에 게시된 환자들의 질문에 대한 인공지능 챗봇들의 답변이 상당히 정확할 뿐 아니라 마치 사람과 같은 공감하는(empathetic) 어조의 답변 역시 제공하였다고 보고하였다. 눈 관리와 관련한 환자들의 질문에 대한 인공지능 챗봇들의 답변을 분석한 Bernstein et al. [11]의 연구에서는 21%는 마치 사람이 답변한 것과 같이 인식되었으며, 실제 사람이 작성한 답변과 비교하였을 때 정보의 정확도는 비슷한 것으로 나타났다. Desideri et al. [14]은 황반변성 환자들이 흔히 하는 질문에 대해 챗봇들이 비교적 정확한 답변을 할 수 있는 것으로 보고하였는데, 여러 챗봇 중 ChatGPT가 75% 이상의 질문에서 정확하게 답변하여 가장 높은 정확도를 보인 것으로 나타났다.
비록 인공지능 챗봇이 의료 관련 물음에 대하여 상당히 정확한 답변을 할 수 있다 하더라도 챗봇들은 보조적인 역할을 수행할 뿐이며, 실제 의료 전문가를 대체할 수는 없다[18]. 그러나 몇몇 설문조사 결과에 따르면 여전히 대부분의 대중과 환자들은 AI보다 의사를 더 신뢰하지만, 소수에서는 AI를 더 신뢰하는 경우도 있었는데[19,20], 비록 소수라도 AI를 더 신뢰하는 사람들이 존재한다는 사실은 실제 질환을 치료하는 의사의 입장에서 큰 부담이 될 수 있다. 예를 들어 치료 도중 이상반응이 발생한 경우 환자나 보호자가 인공지능 챗봇을 통해 얻은 잘못된 정보를 토대로 약제에 문제가 있거나 의료진의 실책이 있었다고 주장할 수도 있으며, 치료 방법이나 결과가 인공지능 챗봇이 제시한 정보와 달랐을 경우 의료진이 치료를 제대로 시행하지 않았다고 의심할 수도 있는 것이다. 결과적으로 챗봇이 제공한 잘못된 정보는 의사-환자 관계에 악영향을 미칠 수 있으며,불필요한 문제들을 야기할 수 있다. 이와 같은 실제 진료에서의 중요성에도 불구하고 아직까지 인공지능 챗봇의 성능을 평가하는 데 있어서 환자에게 오해를 유발할 수 있는 정보에 대한 확인은 관련 연구에서 주요한 평가 지표로 이용되지 않고 있는 상태이다.
안과 영역에서 인공지능 챗봇과 관련된 연구들은 주로 해외에서 진행되어 왔는데, 인공지능 챗봇은 훈련한 데이터와 패턴을 기반으로 응답을 생성하기에 언어에 따라 다른 결과를 도출할 수 있다. 따라서 가장 널리 학습되는 언어인 영어를 이용하여 질의한 결과와 한글을 이용하여 질의한 결과에는 차이가 나타날 수 있을 것으로 추측된다. 본 연구의 경우 한글을 이용하여 질의하고 한글로 챗봇의 답변을 받았으므로 본 연구에서 나타난 인공지능 챗봇의 답변은 영어로 질의하고 응답하였을 때와는 다를 수 있을 것이다. 다만 국내 황반변성 환자들의 경우 60세 이상의 고령인 경우가 많아[9] 한글이 아닌 다른 언어를 이용하여 인공지능 챗봇을 이용하기 어려울 수 있으므로 한글을 이용하여 검색한 결과의 정확성에 대한 평가는 큰 의미를 가진다.본 연구에서는 환자의 접근성이 높으며, 널리 이용되는 대표적인 인공지능 챗봇인 ChatGPT와 Gemini를 이용한 황반변성 관련 정보 검색의 정확도를 평가하였는데, 이들 챗봇은 황반변성 관련 질문에 대하여 전반적으로 의학적인 지식과 상당히 일치하는 수용할 만하거나 훌륭한 답변을 제공하였다. 세 가지 서로 다른 종류의 챗봇 중에서는 ChatGPT 4에서 훌륭한 품질의 답변이 가장 많이 나타난 결과를 보였다. ChatGPT 3.5의 경우 주요 정보가 잘못 기술된 빈도가 가장 높았으며, 열악한 품질의 답변 역시 다른 종류의 챗봇에 비해 상대적으로 높은 빈도로 나타났다. ChatGPT 3.5의 경우 현재 무료로 이용이 가능하기에 ChatGPT 4.0에 비해 환자/보호자의 접근성이 높다. 따라서 ChatGPT 3.5 답변의 정확도가 상대적으로 낮다는 본 연구의 결과는 실제 의료 현장에서 인공지능 챗봇이 부정적인 영향을 미칠 수 있음을 보다 강하게 시사하는 결과라 할 수 있다.인공지능 챗봇의 답변 중 일부에서는 잘못된 정보가 함께 제공되었는데, 비록 소수이긴 하지만 환자에게 불필요한 오해를 일으킬 수 있는 내용이 포함된 경우도 있었다. 예를 들어 안구 내 주사치료의 부작용을 설명하는 부분에서 “염증은 보통 약물의 반응으로 인한 것이며”라는 답변의 경우 약제에 의해 염증이 발생하였다는 오해를 유발할 수 있다. 항혈관내피성장인자 약제 중 브롤루시주맙(brolucizumab)의 경우 타 약제에 비해비교적 높은 안구 내 염증반응이 나타나는 경향이 있어[21,22]약제 자체의 특성이 염증의 발생에 영향을 줄 수 있을 것으로추측되고 있으나 이러한 추측을 모든 약제에 일관되게 적용할수는 없다. 주사 시술 후 나타나는 염증 반응은 드물지만, 감염에 의한 것일 수도 있으며, 명확한 원인을 확인하기 어려운 경우가 더 많다.
“안구 내 출혈”의 경우 주사치료의 주요 부작용이 아님에도 주요 부작용으로 기술되어 있어 습성 나이관련황반변성 치료 과정에서 드물지 않게 경험할 수 있는 망막하출혈의 발생[23]이 마치 주사치료의 부작용인 것처럼 오해를 유발할 가능성이있다. 더 나아가 안구 내 출혈의 원인을 설명하는 부분에서 “주사 바늘이 망막에 손상을 입힐 수 있으며”라는 문구 또한 마치술자의 실수로 인해 주삿바늘이 망막을 직접 찔러 출혈이 발생하였다는 오해를 유발할 수 있는 표현이다. “습성 나이관련황반변성에서 망막의 이상을 수정하거나 혈관 성장을 제어하기 위해 수술이 필요할 수 있다”는 문장이 ChatGPT 3.5의 답변에서확인되었는데, 이러한 표현은 일반적인 습성 나이관련황반변성의 치료 방식과 많은 차이가 있으며, 환자로 하여금 수술을 통해 질환을 치료할 수 있다는 잘못된 기대를 갖게 할 수 있는 표현으로 판단된다.
인공지능 챗봇이 잘못된 답변을 하는 데에는 학습의 부족이나 알고리즘 자체의 문제, 부정확한 정보를 그럴듯하게 지어내는 인공지능 환각(AI hallucination) 등 다양한 원인이 관여할수 있으나 습득한 정보 자체가 잘못된 경우 역시 그 원인 중 하나가 될 수 있을 것이다. 실제 웹(web)에 게시되는 의료 관련 정보들은 정확도가 떨어지는 경우가 적지 않은 것으로 알려져 있어[24] 부정확한 정보는 웹의 정보를 기반으로 답변을 생성하는인공지능 챗봇의 답변 정확도에 악영향을 미칠 수 있다. 따라서 장기적으로 인공지능 챗봇이 의료 관련 부정확한 답변을 하는 빈도를 줄이기 위해서는 웹에 게시되는 부정확한 의료 정보를 최소화하기 위한 전문가들의 노력이 필요할 것이다.
나이관련황반변성 환자들이 널리 복용하는 약제인 AREDS formulation 제품 추천의 경우 관련 제품들을 정확하게 추천하였으나 질의를 통해 추천된 제품들 중 해외 제조사의 제품이 90% 이상이었으며, 국내 생산 제품들에 대한 추천 빈도가 현저히 낮은 특징이 있었다.
항혈관내피성장인자 주사치료 약제 추천의 경우 관련 약제를 정확하게 추천하기는 하였으나 도입된 지 상당 기간이 경과한 라니비주맙, 애플리버셉트, 베바시주맙만 약제가 주로 추천되었으며, 2020년 도입된 브롤루시주맙과 2022년 도입된 파리시맙의 경우 일부 답변에서만 추천되었다. 2023년 도입된 aflibercept 8.0 mg에 대한 추천은 없었고, 역시 최근 도입된 라니비주맙 바이오시밀러 약제들 역시 따로 추천되지 않았다. 도입된 지 시간이 오래 경과하여 인공지능 학습에 더 많은 자료를 얻을 수 있었던 제품들을 챗봇이 주로 추천한 데에서 이러한 경향이 비롯되었을 것으로 추측된다.
의료 비전문가인 환자 혹은 보호자의 입장에서 황반변성이 의심된다는 이야기를 들었을 때 가장 궁금한 점 중 하나는 “어느 병원에 방문하여 확진을 받고 치료를 시행 받을 것인가?”라는 부분일 것이다. 이러한 의문을 해결하기 위해 환자나 보호자는 전문가의 의견에 더해 주변의 추천이나 온라인 카페 혹은 포털 사이트의 질문 게시판 등 다양한 통로를 이용하여 정보를 획득할 것으로 추측된다. 본 연구에서 인공지능 챗봇의 병원 추천에는 뚜렷한 경향성이 확인되었는데, 대부분의 답변에서 서울에 소재한 규모가 큰 상급종합병원들을 추천하였다는 것이다. 이들 상급종합병원들의 규모가 큰 만큼 의료 관련 정보를 더 많이 생산하고 홍보해 온 것이 이러한 경향이 나타난 원인 중 하나일 것으로 추측된다.
암과 같은 중증질환에서는 이미 대형 상급종합병원으로의 환자 쏠림 현상이 나타나고 있다[25]. 황반변성 분야에서 인공지능챗봇이 서울 지역 대형병원 위주로 병원을 추천하는 경향이 지속된다면 챗봇의 답변을 참고하여 병원을 선택하는 환자들이늘어날수록 이들 대형 병원으로의 환자 쏠림 현상이 더 가속화될 가능성을 배제할 수 없을 것이다.
본 연구의 제한점은 다음과 같다. 첫째, 본 연구에서는 황반변성 관련 질문 9개를 임의로 선정하여 인공지능 챗봇에게 질의하였기에 황반변성의 영역에서 제기될 수 있는 많은 질문 중 일부에 대한 답변만을 확인할 수 있었다. 둘째, 3종류의 챗봇만을 이용하여 연구를 진행하였기에 본 연구에서 도출된 결과를 다른 인공지능 챗봇에 적용하기는 어려울 것이다. 셋째, 인공지능 챗봇의 답변 정확도를 평가하는 데 있어서 객관적이고 명확한 기준이 따로 마련되어 있지 않았으며, 연구자들이 임의로 평가하였다는 점 역시 본 연구의 주요 제한점이라 할 수 있다. 넷째, 인공지능 챗봇은 지속적으로 학습을 진행하며 그 성능을 변화시킬 수 있기에 미래에 더 성능이 향상된 챗봇은 본 연구에서와는 다른 답변을 제공할 수도 있을 것이다. 마지막으로 인공지능 챗봇이 “추천하기 어렵다”는 의미의 답변을 한 경우 이를 따로 분류하지 않고 다시 검색을 시행하였는데, 이 답변 역시 전문가의 시각에서는 수용 가능한 답변일 수 있을 것이다. 향후 추가적인 연구를 통해 이러한 답변이 나타나는 빈도 등에 대한 평가가 필요할 것이다.
요약하면, 본 연구에서는 황반변성과 관련된 질문에서 인공지능 챗봇의 답변의 정확도와 경향성을 평가하였다. 대부분의 경우 챗봇은 수용할 만하거나 훌륭한 답변을 하였으나 일부 답변의 경우 잘못된 정보를 제공하는 경우도 있었으며, 챗봇의 종류에 따라 답변의 품질에 차이가 나타났다. 약제를 추천의 경우 도입된 지 상당히 시간이 경과하였거나 해외에서 생산된 제품을 주로 추천하는 경향이 있었으며, 병원 추천의 경우 서울에 위치한 대형 상급종합병원 위주로 추천하는 경향이 있었다. 향후 안과 영역에서 환자들의 인공지능 챗봇 이용이 늘어날 것으로 기대되고 있으므로 관련 분야에 대한 지속적인 연구와 함께, 이러한 추세에 뒤따르는 부작용을 최소화하기 위한 전문가들의 대응이 필요할 것이다.
The authors declare no conflicts of interest relevant to this article.
Conception (J.H.K.); Design (J.H.K.); Data acquisition (D.G.N., Y.S.Y., J.H.K.); Analysis (D.G.N., Y.S.Y., J.H.K.); in-terpretation (D.G.N., Y.S.Y., J.H.K.); writing (D.G.N., Y.S.Y., J.H.K.); review (D.G.N., Y.S.Y., J.H.K.); Final approval of the article (D.G.N., Y.S.Y., J.H.K.)
![]() |
![]() |