
Использование чат-ботов на основе искусственного интеллекта для получения медицинских рекомендаций может представлять серьезную опасность для пациентов. К такому выводу пришли авторы нового исследования, опубликованного в журнале Nature Medicine.
Работу провели ученыеОксфордского института интернета и кафедры первичной медико-санитарной помощи имени Наффилда при Оксфордском университете. Это первое рандомизированное исследование подобного рода, оценивающее, насколько эффективно популярные ИИ-чат-боты помогают людям принимать решения о собственном здоровье.
За последние три года вопросы о здоровье стали одной из самых распространённых тем, с которыми пользователи обращаются к ИИ. По данным опросов, примерно каждый шестой взрослый ищет медицинскую информацию с помощью чат-ботов не реже одного раза в месяц. Крупные технологические компании, включая OpenAI, Meta и Amazon, выпустили продукты, специально предназначенные для ответов на вопросы о здоровье. Интерес к таким инструментам подогревается и тем, что языковые модели успешно сдают медицинские экзамены и демонстрируют высокие результаты в стандартизированных тестах.
Однако, как подчёркивают исследователи, успешное прохождение тестов не означает готовность к работе с реальными пациентами.
В эксперименте приняли участие более 1200 британцев, большинство из которых не имели медицинского образования. Им предлагались подробные клинические сценарии с описанием симптомов, образа жизни и истории болезни. Участникам нужно было определить возможный диагноз и выбрать дальнейшие действия — например, вызвать скорую помощь или ограничиться лечением дома. Одна группа использовала коммерчески доступные чат-боты, включая ChatGPT и Llama, другая — привычные способы поиска информации, главным образом Google или консультацию с врачом.
Результаты оказались сдержанными. Участники, использовавшие чат-боты, выбирали заранее определённый врачами «правильный» курс действий менее чем в половине случаев. Верный диагноз они ставили примерно в 34% случаев. При этом их показатели практически не отличались от контрольной группы, пользовавшейся обычным интернет-поиском.
Исследователи пришли к выводу, что ни одна из протестированных моделей «не готова к непосредственному применению в лечении пациентов». По словам соавтора работы доктора Ребекки Пейн, несмотря на ажиотаж вокруг технологий, ИИ пока не может заменить врача. «Пациенты должны понимать, что обращение к языковой модели с вопросами о симптомах может быть опасным: система способна выдать неверный диагноз или не распознать ситуацию, требующую срочной помощи», — отметила она.
Анализ показал, что чат-боты часто предоставляли смесь корректной и ошибочной информации, и пользователям было трудно отличить одно от другого. В ряде случаев модели выдавали откровенно ложные сведения — например, предлагали обратиться на несуществующий номер экстренной помощи. Кроме того, даже незначительные изменения в формулировке вопроса могли существенно повлиять на рекомендации системы.
Интересно, что примерно в половине случаев ошибки были связаны не только с моделью, но и с тем, как пользователи формулировали запрос. Участники нередко не указывали важные детали — силу боли, её локализацию или продолжительность, — и бот давал советы, опираясь на неполную картину. Когда же исследователи вводили в систему полный клинический сценарий напрямую, точность диагностики достигала 94%.
Тем не менее даже в этих условиях модели испытывали трудности с определением срочности состояния — то есть с пониманием, когда требуется немедленная медицинская помощь. По мнению экспертов, это связано с тем, что ИИ обучается преимущественно на медицинских текстах и описаниях случаев, но не обладает практическим опытом клинического принятия решений в условиях неопределённости.
«Медицина — это сложная, неполная и во многом вероятностная область», — отметил один из авторов исследования Адам Махди. Его коллега Эндрю Бин добавил, что проблема частично заключается во взаимодействии человека и модели: «Должен ли пользователь знать, какие симптомы важны, или система сама должна задавать уточняющие вопросы?»
Авторы подчёркивают, что их работа не даёт окончательной оценки всех современных моделей, поскольку технологии быстро обновляются. Тем не менее исследование ясно показывает: несмотря на впечатляющие результаты в тестах, использование ИИ в качестве инструмента для самостоятельной медицинской диагностики может нести риски.
«Эти выводы подчёркивают, насколько сложно создать системы, способные действительно надёжно поддерживать людей в чувствительных и высокорисковых сферах, таких как здравоохранение», — резюмировала доктор Пейн.
НОВОСТИ В КЫРГЫЗСТАНЕ