Про ChatGPT на основе ИИ, разработанный компанией OpenAI, сегодня не слышал, наверное, только ленивый. Эта мощнейшая нейросеть, которая легко генерирует текст на основе информации, считается одним из самых любопытных и перспективных представителей ИИ в медицине.
ChatGPT уже сдал медицинский экзамен United States Medical Licensing Examination (USMLE) на право работать врачом в США и ряде других стран. При этом экзаменаторы (живые люди!) отметили, что нейросеть даже смогла выдвинуть «неочевидную, но клинически обоснованную гипотезу» в тестовом диагнозе. Но то задания теста, а вот как нейросеть справится с реальными задачами из практического здравоохранения?
Насколько точными могут быть ответы и, самое главное, способна ли она проявлять эмпатию? В исследовании, опубликованном в журнале Американской медицинской ассоциации JAMA Internal Medicine, ученые сравнили ответы врачей и чат-бота на вопросы реальных пациентов. И как думаете, кто победил?
Пандемия COVID-19 многократно ускорила внедрение «виртуального» здравоохранения во всем мире. По данным Американской медицинской ассоциации, минимум в 1,6 раза возросло количество электронных сообщений пациентов, а каждое такое сообщение добавляет 2,3 минуты работы врача с электронной медицинской картой. Дополнительный объем работы провоцирует повышенное выгорание, хотя 62 % врачей, и это рекордно высокий показатель за все время наблюдения, уже отмечают у себя по крайней мере один симптом. Растущая лавина сообщений повышает вероятность того, что вопросы пациентов останутся без ответов или ограничатся стандартными отписками.
Помимо полезных и прагматичных целей (например, запись на прием к врачу, получение результатов анализов) некоторые вопросы пациентов подразумевают формат развернутых консультаций, для которых нужны и время, и соответствующая квалификация специалистов. Ни попытки количественного ограничения уведомлений, ни делегирование ответов менее подготовленному вспомогательному персоналу, ни тем более введение оплаты за онлайн-консультацию не решают проблему, но существенно ограничивают доступ к качественному медицинскому обслуживанию.
Ассистенты на основе ИИ — по сути потенциальный ресурс для решения проблемы бремени электронных сообщений. Пока справлялись они как-то не очень. Но ChatGPT, представляющий собой новое поколение технологий ИИ, основанных на достижениях в области больших языковых моделей, получил широкое признание (100 млн пользователей в течение первых 60 дней после выхода!) благодаря своей способности писать тексты не менее качественные, чем человек, по широкому кругу тем. И хотя система не разрабатывалась для оказания медицинской помощи, ученые считают, что ее способность помочь в решении вопросов здравоохранения следует серьезно изучать.
Как проверяли?
Авторы перекрестного исследования взяли 195 вопросов/ответов со специализированного форума в одной из социальных сетей, где пользователи обращались к врачам за консультацией по различным медицинским вопросам. Эти же вопросы задали и ChatGPT, и затем группа медицинских экспертов оценила те и другие ответы. При этом они не были проинформированы, какой из ответов был сформирован ИИ, а какой дан реальным медработником.
Эксперты выбирали, «какой ответ был лучше», и оценивали как качество предоставленной информации (очень плохое, плохое, приемлемое, хорошее или очень хорошее), так и эмпатию (не сопереживает, слегка сопереживает, умеренно сопереживает, сопереживает и сильно сопереживает). Результаты оценивались по шкале от 1 до 5 и сравнивались между чат-ботом и врачами на последней стадии.
Результаты
- Эксперты отдали предпочтение ответам чат-бота по сравнению с ответами врачей в 78,6 % случаев. В среднем ответы врачей были значительно короче, чем ответы чат-бота: 52 [17–62] слова против 211 [168–245] слов.
- Качество ответов чат-бота оказалось значительно выше, чем качество ответов врачей. Например, доля ответов, оцененных как «хорошее или очень хорошее качество» (балл ≥4), была в 3,6 раза выше у чат-бота (78,6 %), чем у врачей (22,4 %).
- Ответы чат-бота содержали большее количество нюансов и в целом были более информативны, чем аналогичные ответы врачей.
- Доля ответов, оцененных как «сочувственные или очень сочувственные» (балл ≥4), была выше у чат-бота (45,1 %), чем у врачей (4,6 %) — то есть, общаясь с пациентами, ИИ проявил эмпатию и чуткость в 9,8 раза чаще по сравнению с живыми людьми.
Что думают о результатах медработники?
Эдиривира Десаприя, постдокторант медицинского факультета Университета Британской Колумбии (Канада), педиатр Университетской детской больницы:
Глубоко убеждена, что чат-боты могут только имитировать сопереживание. Эмпатия — сложный эмоциональный и когнитивный процесс, который включает в себя не только предоставление информации. Как насчет активного слушания, искренней заботы, способности понимать эмоциональные потребности пациентов и реагировать на них? Тем не менее хотя чат-боты не могут полностью воспроизвести человеческий элемент сопереживания, они все же способны быть полезным инструментом для обучения врачей и студентов-медиков и улучшения коммуникации и вовлечения пациентов.
Результаты исследования свидетельствуют еще и о том, что развернутые ответы медработников пользуются бо́льшей популярностью. Более длинные ответы могут предоставлять больше информации и восприниматься как более информативные, но вовсе необязательно, что они демонстрируют больше проявления сочувствия. А еще есть подозрение, не являются ли более длинные ответы чат-ботов результатом того, что у машины гораздо больше времени для ответа по сравнению с вечно занятым врачом…
Хонг Сун, доктор философии (PhD), главный специалист по данным Dedalus Healthcare (компания по разработке ПО для здравоохранения):
Как специалист по анализу данных, работающий с медицинским ИИ, не удивлен, увидев обнадеживающие результаты ChatGPT в этом отчете. Однако статья приводится как доказательство того, что чат-бот превосходит людей в плане эмпатии, с чем я не соглашусь, поэтому хотел бы обратить внимание на некоторые ограничения этого исследования.
Во-первых, ответы, данные в рамках цифрового консультирования, нельзя считать репрезентативными для реальной клинической практики. Медицинские работники на форуме дают краткие ответы в свободное от клинической практики время (или в дополнение к ней), их работу не следует рассматривать как нормальный уровень деятельности врачей.
Во-вторых, чат-бот предъявляет длинные и подробные объяснения и рекомендации по сравнению с ответами врачей. Самые длинные ответы врачей (≥62 слов) все равно намного ниже по сравнению с 211 словами от чат-бота. Учитывая такой большой разрыв в количестве слов, оценка эмпатии выглядит весьма необъективной.
Тем не менее чат-бот демонстрирует свой потенциал для улучшения коммуникации между врачами и пациентами, и я думаю, не будет ли интересным экспериментом, если в качестве входных данных взять вопросы и ответы на них врачей и затем попросить ИИ сгенерировать ответ для пациентов. Это позволило бы оценить, есть ли вообще польза от врачей в формате цифрового взаимодействия с пациентом.