Влияние возраста и расы на работу ИИ при оценке маммограмм
В исследовании почти 5000 скрининговых маммограмм, интерпретированных алгоритмом ИИ, одобренным FDA, было установлено, что такие характеристики пациента, как раса и возраст, влияют на ложноположительные результаты. Результаты исследования опубликованы в журнале Radiology.
«ИИ стал ресурсом для радиологов, повышающим их эффективность и точность при чтении скрининговых маммограмм, снижая усталость», — говорит Дерек Л. Нгуен, доктор медицинских наук, доцент Университета Дьюка в Дерхэме, Северная Каролина. «Однако влияние характеристик пациентов на работу ИИ было недостаточно изучено».
Доктор Нгуен отметил, что, хотя предварительные данные свидетельствуют о том, что алгоритмы ИИ, применяемые к скрининговым маммографиям, могут улучшить диагностическую эффективность радиологов и сократить время интерпретации, есть аспекты ИИ, требующие дополнительного рассмотрения.
«Существуют немногие демографически разнообразные базы данных для обучения алгоритмов ИИ, и FDA не требует разнообразных наборов данных для валидации», — сказал он. «Из-за различий между популяциями пациентов важно исследовать, может ли программное обеспечение ИИ работать на одном уровне для разных возрастов, рас и этнических групп пациентов».
Проверка работы ИИ на различных группах
В ретроспективном исследовании были идентифицированы пациенты с отрицательными результатами цифровой томосинтезной маммографии, проведенной в Медицинском центре Университета Дьюка с 2016 по 2019 годы. Все пациенты наблюдались в течение двух лет после скрининговой маммографии, и ни у одного из них не было диагностировано злокачественного новообразования молочной железы.
Исследователи случайным образом выбрали подгруппу из 4855 пациентов (медианный возраст 54 года), распределенных по четырем этническим/расовым группам. В подгруппу вошли 1316 (27%) белых, 1261 (26%) чернокожих, 1351 (28%) азиатов и 927 (19%) испаноязычных пациентов.
Коммерчески доступный алгоритм ИИ интерпретировал каждую маммографию в подгруппе, генерируя общий балл случая и риск-балл, представляющий риск последующего злокачественного новообразования в течение одного года.
«Наша цель состояла в том, чтобы оценить, была ли работа алгоритма ИИ равномерной по возрасту, типам плотности молочной железы и различным расам/этническим группам пациентов», — сказал доктор Нгуен.
Поскольку все маммограммы в исследовании были отрицательными для наличия рака, любые подозрительные находки, выявленные алгоритмом, считались ложноположительными результатами. Ложноположительные результаты были значительно более вероятными у чернокожих и пожилых пациентов (71-80 лет) и менее вероятными у азиатских и более молодых пациентов (41-50 лет) по сравнению с белыми пациентами и женщинами в возрасте от 51 до 60 лет.
«Это исследование важно, потому что оно подчеркивает, что любое программное обеспечение ИИ, приобретенное медицинским учреждением, может не работать одинаково для всех возрастных, расовых/этнических групп и плотностей молочной железы», — сказал доктор Нгуен. «В будущем, обновления программного обеспечения ИИ должны быть направлены на обеспечение демографического разнообразия».
Доктор Нгуен отметил, что медицинские учреждения должны понимать популяцию пациентов, которых они обслуживают, перед покупкой алгоритма ИИ для интерпретации скрининговых маммограмм и спрашивать у поставщиков о тренировочных данных их алгоритмов.
«Имея базовые знания о демографических данных вашего учреждения и задавая вопросы поставщику о этническом и возрастном разнообразии их тренировочных данных, вы сможете понять ограничения, с которыми столкнетесь в клинической практике», — сказал он.
Исследование подчеркивает важность учета демографического разнообразия при использовании ИИ в медицине. Чтобы обеспечить высокую точность и надежность диагностики для всех групп пациентов, необходимы алгоритмы ИИ, обученные на разнообразных данных.