Исследование показывает, что ChatGPT слабо оценивает риск сердечных заболеваний

Новое исследование вызывает сомнения в надёжности ChatGPT-4 от OpenAI при оценке риска сердечных заболеваний, особенно при определении необходимости госпитализации пациента с болью в груди. Результаты были недавно опубликованы в журнале PLOS ONE исследователями из Вашингтонского государственного университета.

В ходе исследования, в котором изучались тысячи виртуальных случаев пациентов с болями в груди, программа давала несогласованные выводы, предлагая разные уровни оценки риска для одних и тех же данных пациентов. ChatGPT также не смог достичь точности традиционных методов, которые врачи используют для оценки риска сердечных заболеваний.

Исследователи считают, что это различие, скорее всего, связано с уровнем случайности, встроенным в ChatGPT-4, что помогает создавать разнообразные ответы, чтобы имитировать естественный язык. Ведущий автор исследования, Томас Хестон, подчеркнул, что случайность не подходит для медицинских ситуаций, требующих однозначного и последовательного ответа.

Врачи обычно полагаются на одну из шкал, например, TIMI или HEART¹, для оценки сердечного риска, каждая из которых использует несколько переменных, включая симптомы, историю болезни и возраст.

Исследователи начали с создания трех наборов данных, каждый из которых состоял из 10 000 случайных смоделированных случаев.

На первых двух наборах данных ChatGPT в 45% - 48% случаев предоставлял различную оценку риска по сравнению с фиксированными шкалами TIMI или HEART. Для третьего набора было проведено четыре тестирования, и в 44% случаев ChatGPT предлагал разные уровни оценки для одних и тех же случаев.

Авторы пришли к выводу, что программа требует дальнейшей доработки и настройки, прежде чем ее можно будет использовать в медицинских приложениях.

В российской системе здравоохранения, учитывая описанные недостатки, следует с осторожностью подходить к использованию больших языковых моделей, таких как ChatGPT, для оценки различных заболеваний, в том числе сердечного риска. Необходимы дополнительные исследования и адаптация этих технологий под специфику отечественной медицины, чтобы обеспечить их надежность и точность.