Една мала студија покажа дека ChatGPT ги “победил” луѓето лекари при проценка на историјата на медицински случаи, остварувајќи поголем процент на точно поставени дијагнози и последователни испитувања за потврда на дијагнозата, дури и кога лекарите го користеле чет-ботот при нивната дијагностика.
Во еден експеримент, лекарите на кои им бил даден ChatGPT за дијагностицирање на болеста постигнале само малку подобри резултати од лекарите кои немале помош од ВИ и користеле само конвенционални ресурки. Но, кога четботот бил оставен да работи самостојно, тој имал подобри резултати од сите лекари.
Чет-ботот, од компанијата OpenAI, покажал во просек 90% доверба при дијагностицирање на здравствена состојба според приложена медицинска документација, како и за објаснување на неговите заклучоци. Докторите на кои по случаен избор им бил даден четботот на располагање оствариле во просек 76% доверба. Оние пак, кои по случаен избор биле оставени да користат традиционални средства постигале просечен резултат од 74%.
Но, студијата не ги открила само супериорните перформанси на четботот кога станува збор за дијагностиката. Таа откри и дека докторите понекогаш слепо веруваат во дијагнозата што самите ја поставиле, дури и кога чет-ботот предлагал потенцијално подобра.
Покрај ова студијата покажува и дека иако лекарите во нивното професионално опкружување имаат на располагање алатки со вештачка интелигенција, малкумина од нив знаат како да ги искористат способностите на чет-ботовите. Поради тоа тие не успеале да ја искористат способноста на ВИ системите за решавање на сложени дијагностички проблеми и можноста за детално објаснување на поставените/предложени дијагнози.
Во експериментот биле вклучени 50 лекари, а резултатите од клиничкото истражување се објавени кон крајот на минатиот месец во JAMA Network Open На испитаниците им биле дадени шест истории на медицински случаи и биле оценувани според нивната способност за предлагање на дијагнози и нивното објаснување за фаворизирање или отфрлање на одредена дијагноза. Нивните оценки, исто така, вклучувале и правилно поставување на конечната дијагноза. За оценувачи биле избрани медицински експерти кои имале пристап само до одговорите на учесниците, без притоа да знаат дали тие се добиени од лекар со ChatGPT, од лекар без него или од самиот ChatGPT.
Историите на медицински случаи што биле користени во студијата се засновале на вистински пациенти и се дел од збирката од 105 случаи кои истражувачите ги користат уште од 1990-тите. Историјата на ниту еден од овие медицински случаи намерно никогаш не била објавена со цел да можат студентите по медицина и други да бидат тестирани на нив без никакво предзнаење. Воедно тоа значи и дека ChatGPT не можел да добие претходна обука на нив.
Но, за илустрирање на опсегот на студијата, истражувачите објавиле еден од шестте случаи на кои лекарите биле тестирани, заедно со одговорите на тест-прашањата за тој случај добиени од еден лекар кој постигнал високи резултати и од еден лекар чијшто резултат бил низок.
Дадениот тест случај се однесувал на 76-годишен пациент со силни болки во долниот дел од грбот, задникот и листовите на нозете додека одел. Болката започнала неколку дена откако бил третиран со балон ангиопластика за проширување на коронарната артерија. Бил терапиран со хепарин за разредување на крвта во текот на 48 часа по процедурата.
Човекот се жалел дека чувствува треска и умор. Неговиот кардиолог направил лабораториски истражувања кои укажале на нов зачеток на анемија и акумулација на азот и други бубрежни отпадни продукти во неговата крв. Десетина години претходно на човекот му бил направен бајпас поради срцево заболување. Вињетата на случајот продолжува со понатамошни детали за физичкиот преглед на мажот, а потоа биле дадени резултати од лабораториските испитувања.
Точната дијагноза на овој случај била холестеролска емболија – состојба во која делови од холестеролот се откинуваат од наслагите во артериите и ги блокираат крвните садови.
Од учесниците било побарано да предложат три можни дијагнози, со придружни докази за секоја од нив. Истовремено, било побарано да дадат за секоја можна дијагноза, наоди што не одат во нејзин прилог или кои биле очекувани при таква дијагноза, но не биле добиени. Исто така, од учесниците било побарано да дадат конечна дијагноза. Потоа требале да наведат најмногу три дополнителни чекори што би ги презеле во нивниот дијагностички процес, заради потврда.
Како и кај дијагнозата од објавениот случај, дијагнозите за останатите пет медицински случаи употребени во студијата не можеле лесно да се утврдат. Но, состојбите не биле ни претерано ретки. Сепак, во просек дијагностиката на лекарите била полоша од онаа на четботот. Како ова се случило?
Одговорот на ова прашање се крие во начинот на којшто лекарите утврдуваат некоја дијагноза, за што честопати нема егзактен показател, но и како ги користат расположливите алатки од типот на вештачка интелигенција.
Лекарите сигурно ги виделе дијагнозите и расудувањето на четботот, па зошто тогаш ова знаење не го примениле за постигнување подобри резултати? Во пракса лекарите честопати не биле убедени од четботот кога тој укажувал на нешто коешто се коси со нивните дијагнози. Наместо тоа, тие имаат тенденција да останат ‘заробени’ во сопствената идеја за точна дијагноза.
Но, бил детектиран уште еден проблем: многу од лекарите не знаеле како во целост да го искористат четботот. Имено, тие го третирале како пребарувач за насочени прашања, а само мал дел од лекарите сфатиле дека можат буквално да ја копираат целата историја на медицинскиот случај во четботот и едноставно да побараат тој да даде сеопфатен одговор на поставеното барање. Па така, само мал дел од лекарите дошле до изненадувачки паметните и сеопфатни одговори на четботот.
Оригиналниот труд е објавен во JAMA Network Open, извор Њујорк Тајмс