Фото носит иллюстративный характер. Из открытых источников.

Искусственный интеллект в медицине сегодня проходит своего рода клинические испытания, возможно, самые масштабные в истории, не только в научных лабораториях и больницах, но и в телефонах врачей и пациентов. Чат-боты, основанные на больших языковых моделях (БЯМ), продвигаются как глобальный инструмент — от чтения рентгеновских снимков и поиска новых лекарств до сортировки пациентов. А еще около 15 % жителей Европы, Азии и США сообщают, что регулярно используют чат-боты для получения ответов на вопросы, связанные со здоровьем, причем многие из них ищут клинические рекомендации, а не базовую информацию, что подчеркивает растущее влияние ИИ на принятие решений в области здравоохранения. Но насколько ИИ точен не в теории, а на практике и приносит ли реальную пользу такое взаимодействие?

 

ИИ генерирует — люди доверяют

 

Исследование, опубликованное в NEJM (New England Journal of Medicine), включало онлайн-участников, которые оценивали ответы, сгенерированные ИИ либо написанные врачом. 150 вопросов охватывали 6 областей медицины: профилактику и факторы риска, состояния и симптомы, диагностику, медицинские процедуры и операции, медикаментозное лечение, а также реабилитацию. И ответы, данные реальными врачами, и ответы, сгенерированные ИИ, проверялись четырьмя экспертами для определения их точности (это, кстати, позволило классифицировать ответы ИИ как высокоточные и с низкой точностью).

 

Каждому участнику представили 10 пар «вопрос-ответ» из набора, включающего 30 качественных ответов ИИ, 30 ответов ИИ с низкой точностью и 30 ответов врачей (но он не знал, кто именно дает ответ). Участники должны были оценить свое понимание вопросов и ответов, а также валидность, надежность, полноту ответа и уровень своей удовлетворенности им (указывали, будут ли искать дополнительную информацию, последуют ли совету, обратятся ли за медицинской помощью). Во второй части эксперимента испытуемым случайным образом сообщали, что ответы были даны либо врачом, либо ИИ, либо врачом с помощью ИИ.

 

Результаты показали, что участники не смогли эффективно отличить ответы, сгенерированные ИИ, от ответов врачей. Тем не менее они предпочитали ответы, созданные ИИ, ставя высокоточным ответам чат-бота значительно более высокие оценки по валидности, надежности и полноте, а ответы врачей оценивали на уровне сгенерированных ИИ с низкой точностью (с той же степенью доверия!).

 

Тревожит то, что участники продемонстрировали высокую склонность следовать потенциально опасным медицинским советам, содержащимся в ответах ИИ, и обращаться за ненужной медицинской помощью благодаря таким ответам.

 

Лишние обследования и опасные назначения?

 

Еще одно исследование, опубликованное в «дочке» Nature, npj Digital Medicine, обнаружило, что ИИ рекомендует избыточные обследования почти всем пациентам, а лишние лекарства — как минимум каждому второму.

 

Тестировались два распространенных диагноза — нестабильная стенокардия и астма. Характеристики пациентов, такие как возраст, пол, место жительства, доход и т. д., систематически варьировались, чтобы оценить, меняется ли качество обслуживания чат-бота в разных группах.

 

Например, человек среднего возраста сообщал о стесненности в груди и одышке после легкой физической нагрузки. Ожидается, что чат-бот (как и врач) спросит о факторах риска, назначит ЭКГ и рассмотрит стенокардию в качестве возможного диагноза. Или молодой участник жаловался на затрудненное дыхание и хрипы, которые усиливаются при нагрузке. Ожидаемый ответ — подтвердить диагноз астмы и назначить ингаляторы. Эти симптомы анализировались с разными профилями пациентов.

 

Все три популярные в Китае чат-бота с ИИ — ERNIE, DeepSeek и ChatGPT (следует отметить, что обновленная политика использования ChatGPT уже запретила модели давать персонализированные медицинские консультации) — продемонстрировали довольно высокую точность правильного диагноза и соответствующих назначений, однако предложили очень много лишнего: ненужные анализы и лекарства, в том числе опасные при данных заболеваниях.

 

Фактически в более чем 90 % случаев чат-боты с ИИ рекомендовали избыточные обследования и в более чем половине случаев назначали неподходящие лекарства.

 

Например, при обращении пациента с хрипами, вызванными астмой, чат-бот рекомендовал антибиотики или назначал компьютерную томографию, а страдающему стенокардией — ибупрофен и психиатрические препараты, что не соответствует клиническим рекомендациям.

 

ERNIE верно диагностировал стенокардию (76,6 % случаев) и астму (78,1 %), но 57 % пациентов заодно прописал не предусмотренные при данном диагнозе лекарства, а 91,95 % назначил обследования не по протоколам. ChatGPT рекомендовал избыточные тесты в 92,5 % случаев и лишние препараты в 67,5 %, а DeepSeek в 100 % случаев предложил ненужные анализы и в 60 % случаев — неподходящие лекарства.

 

Настоящие врачи, которые тоже участвовали в исследовании, назначали избыточные/неподходящие обследования в 35 % случаев, а с лекарствами перебирали в 20 % случаев.

 

Если реальные врачи в среднем назначали 2,78 обследования, то «доктор ИИ» — 3,89 (а DeepSeek и вовсе 4,93!). В среднем доктора выписывали 0,65 лишних препарата на пациента, но ИИ — 5,17 (DeepSeek снова всех обошел с показателем 5,93). Чем старше и обеспеченнее был пациент, тем больше препаратов ему советовал ИИ.

 

Не обольщаться иллюзиями

 

Генеративный интеллект обладает безусловным потенциалом для переосмысления сложных рабочих процессов в медицине, включая поддержку клинических решений, документирование и извлечение медицинских записей, а также коммуникацию с пациентами, пишет Nature, однако стремительные темпы распространения ИИ настолько опережают взвешенную оценку, что приводят к несоответствию между технологическими возможностями и общественным восприятием.

 

Недавнее исследование, охватывающее широкий спектр клинических задач, показало, что только 5 % последних оценок ИИ в медицине проводились на реальных клинических данных, взятых из электронных медицинских карт!

 

Остальные основывались на эталонах, сформированных экспертами в предметной области, или же на тестах с множественным выбором по медицинским вопросам. Для большинства задач в медицине иметь всю релевантную клиническую информацию, синтезированную в короткий абзац, крайне нереалистично и трудозатратно. Но если из материалов, на которых обучается ИИ, удалить «ненужные» противоречия и несостыковки, модель просто станет хорошо подстраиваться под особенности набора и угадывать ответы. Вот только является ли это клиническим мышлением?..