История студента · Data Science

Как я научила ИИ подбирать лечение для детей с гипертензией с помощью машинного обучения (ML)

Подбор терапии при детской гипертензии часто сводится к последовательной смене препаратов с интервалом в несколько месяцев. Это увеличивает время поиска эффективного лечения и повышает риски осложнений. В статье — разбор ML-подхода, который повышает вероятность успешного подбора терапии с помощью модели машинного обучения.

Анастасия Адамсон Детский кардиолог · студентка онлайн-магистратуры Центра «Пуск» МФТИ

Меня зовут Анастасия Адамсон. Я врач — детский кардиолог, в медицине около 9 лет, 3 из которых посвящены детской кардиологии.

Каждый день я сталкиваюсь с артериальной гипертензией у детей — стремительно молодеющим заболеванием. С 2020 года число таких пациентов в России выросло на 17%. Раньше я наблюдала преимущественно подростков 15–17 лет, но сейчас в моем кабинете все чаще появляются дети 13–14 лет.

За этим стоит не только изменение возраста пациентов, но и системная проблема, с которой сталкивается каждый врач.

Проблема индивидуального подбора терапии

Лечение гипертензии у детей — это долгий путь проб и ошибок. Врач выбирает один из пяти разрешенных препаратов, опираясь на рекомендации и собственный опыт. Оценить результат можно только через 2–3 месяца.

Если препарат не подходит, схема меняется — и ожидание начинается заново.

В течение всего этого времени давление у ребенка остается высоким, родители начинают сомневаться в лечении и нередко прекращают его самостоятельно, а риск тяжелых осложнений: ангиопатии сетчатки, гипертрофии миокарда — продолжает расти.

Однажды после очередного такого случая я начала искать ответ на вопрос, нельзя ли заранее узнать, какой препарат подойдет именно этому ребенку. Есть ли вероятность того, что можно сформировать четкие клинические портреты пациентов для каждого препарата и сузить этот бесконечный диапазон выбора?

Это была не просто проблема медицинских знаний, а проблема данных, которую я хотела решить.

От идеи — к нужной среде

Мысль о применении анализа данных в медицине появилась задолго до практической реализации. Я рассматривала разные варианты обучения: курсы, самообразование, программы переподготовки. Нужна была системная база, достаточная для проведения настоящего научного исследования, и при этом — возможность не бросать практику.

Онлайн-магистратура МФТИ оказалась наиболее подходящим вариантом: серьезная академическая программа в экосистеме Физтеха, полностью в онлайн-формате, благодаря чему ее реально совмещать с работой.

И тут началась моя жизнь по новому расписанию: прием пациентов, дежурства, параллельно — учеба. Это было непросто: дисциплин в семестре много, иногда нужно сдать 3–4 задания в один дедлайн. Каждый недельный контроль — полноценная практическая задача, на которую уходит до 10 часов. Откладывать на потом здесь просто не получится.

Но именно эта система и дала результат, который превзошел мои ожидания.

Сбор и подготовка данных

Моей главной задачей было применение инструментов аналитики данных и машинного обучения в своей медицинской нише. Для исследования я вручную собирала данные 272 пациентов в течение 3 месяцев — из реальных выписных эпикризов после госпитализации в кардиологическое отделение. Только честная клиническая статистика без пропусков и синтетических допущений, что потребовало огромных временных затрат.

Первично учитывалось около 90 признаков: анамнез, перенесенные и сопутствующие заболевания, жалобы, антропометрия, лабораторные анализы (включая гормональные исследования), инструментальные данные — ЭКГ, Эхо-КГ, СМАД, УЗИ брахиоцефальных артерий, почек, щитовидной железы. После очистки и категоризации данных в модель подавалось уже 154 признака по каждому пациенту.

В педиатрии сырые числа значат очень мало. У детей в зависимости от возраста, роста и пола существует 238 вариантов нормы только по систолическому давлению.

Здесь важен один нюанс, который часто упускают в технических исследованиях. В педиатрии сырые числа значат очень мало. У взрослых все просто: давление выше 140/90 мм рт. ст. — высокое, точка. У детей же в зависимости от возраста, роста и пола существует 238 вариантов нормы только по систолическому давлению — и столько же по диастолическому. Давление 120/80 мм рт. ст. для одного ребенка — абсолютная норма, для другого — уже гипертензия. Я интегрировала все эти нормы в модель с учетом антропометрических и возрастных данных каждого пациента, что сделало ее клинически интерпретируемой: одно и то же число для разных детей получало разную клиническую интерпретацию.

Выбор алгоритма и принцип его работы

Мною были протестированы 3 алгоритма: Random Forest, XGBoost и LightGBM. Лучшие результаты показал Random Forest:

Random Forest — итоговые метрики

Accuracy0.7683

Precision0.7692

F1-Score0.8633

Recall0.9836

Это единственная модель, которая превзошла baseline почти по всем ключевым метрикам.

В медицине повышение точности даже на 2–3% — это десятки пациентов, которые быстрее получат корректное лечение.

Система работает по принципу имитационного моделирования. Для каждого конкретного пациента формируется базовый клинический профиль, содержащий только те данные, которые доступны врачу до назначения терапии. Затем система гипотетически «проигрывает» назначение каждого из возможных препаратов, создавая множество модифицированных профилей.

Каждый такой сценарий подается на вход обученной модели, которая предсказывает вероятность успешной терапии при условии назначения именно этого препарата. В итоге система выбирает препарат, демонстрирующий наивысшую предсказанную вероятность успеха для конкретного ребенка.

Проверка и неожиданные результаты

Работу алгоритма проверил независимый эксперт — детский кардиолог, кандидат медицинских наук, доцент ФГБОУ ВО УГМУ МЗ РФ. На основе анализа 7 реальных клинических кейсов он пришел к выводу, что разработанный алгоритм — перспективный инструмент поддержки принятия врачебных решений с высокой точностью в сегментации пациентов, который при условии дальнейшей доработки способен существенно повысить качество педиатрической кардиологической помощи.

В процессе работы была сделана и неожиданная находка. Дополнительная артерия почки считается физиологической нормой и официально не влияет на развитие гипертензии. Однако алгоритм статистически зафиксировал устойчивую связь между ее наличием и повышенным давлением у детей — то, что практикующие врачи чувствовали интуитивно, но не могли доказать. Биологический механизм этой связи пока неясен, но сам факт воспроизводится на данных — и это уже повод для отдельного исследования.

Что дальше

В планах — к концу 2026 года расширить выборку до 500+ пациентов, подключить данные суточного мониторирования АД (СМАД) для более надежной оценки долгосрочного ответа на терапию и превратить исследование в полноценный клинический инструмент, которым смогут пользоваться врачи.

Почему эта история стала возможной

Безусловно, все это стало возможным только потому, что я пришла в Data Science как врач, а не наоборот. Никто, кроме клинициста, не знает, какие из 90 признаков реально значимы, а какие — технический шум. Только кардиолог может интерпретировать результат модели у реального пациента — там, где решения должны приниматься быстро.

В медицине накоплено огромное количество данных, но без человека, который понимает их клинический смысл, они остаются архивом.

Я не ушла из медицины в Data Science, а лишь расширила свои знания ровно настолько, чтобы применить их на стыке двух дисциплин — и сделала возможным то, что раньше казалось нерешаемым.

Если вы врач, биолог, фармацевт или другой специалист в сфере здоровья — у вас уже есть самое ценное — экспертиза. Надо только дать ей новый инструмент.

Узнать о программе и записаться на консультацию

Онлайн-магистратуры МФТИ →