ОБЛАСТЬ ПРИМЕНЕНИЯ: прогнозирование будущих диагнозов при посещении офиса с использованием электронных медицинских карт.
Том 13 научных отчетов, номер статьи: 11005 (2023) Цитировать эту статью
338 Доступов
3 Альтметрика
Подробности о метриках
Мы предлагаем интерпретируемую и масштабируемую модель для прогнозирования вероятных диагнозов при встрече на основе прошлых диагнозов и результатов лабораторных исследований. Эта модель предназначена для помощи врачам во взаимодействии с электронными медицинскими записями (ЭМК). Для этого мы ретроспективно собрали и деидентифицировали данные ЭМК 2 701 522 пациентов в Stanford Healthcare за период с января 2008 по декабрь 2016 года. были выбраны множественные встречи хотя бы с одним часто встречающимся диагностическим кодом. Калиброванная модель была разработана для прогнозирования диагностических кодов МКБ-10 при посещении на основе прошлых диагнозов и результатов лабораторных исследований с использованием стратегии моделирования с несколькими метками, основанной на бинарной релевантности. В качестве базового классификатора были протестированы логистическая регрессия и случайные леса, а также протестировано несколько временных окон для агрегирования прошлых диагнозов и лабораторных исследований. Этот подход к моделированию сравнивали с методом глубокого обучения на основе рекуррентной нейронной сети. В лучшей модели в качестве базового классификатора использовался случайный лес, а также интегрированные демографические характеристики, диагностические коды и результаты лабораторных исследований. Лучшая модель была откалибрована, и ее производительность была сопоставима или лучше, чем у существующих методов с точки зрения различных показателей, включая медианное значение AUROC 0,904 (IQR [0,838, 0,954]) для 583 заболеваний. При прогнозировании первого появления метки заболевания у пациента медиана AUROC с лучшей моделью составляла 0,796 (IQR [0,737, 0,868]). Наш подход к моделированию показал сопоставимые результаты с проверенным методом глубокого обучения, превосходя его по показателю AUROC (p <0,001), но уступая по показателям AUPRC (p <0,001). Интерпретация модели показала, что она использует значимые функции и выявляет множество интересных связей между диагнозами и результатами лабораторных исследований. Мы пришли к выводу, что модель с несколькими метками работает сравнимо с моделью глубокого обучения на основе RNN, предлагая при этом простоту и потенциально превосходную интерпретируемость. Хотя модель была обучена и проверена на данных, полученных от одного учреждения, ее простота, интерпретируемость и производительность делают ее многообещающим кандидатом для внедрения.
Широкое внедрение электронных медицинских карт (ЭМК) открыло большие возможности для изучения и применения реальных потоков данных, одновременно обременяя практикующих врачей канцелярской работой по документированию, которая отвлекает их от непосредственного ухода за пациентами. Врачи первичной медико-санитарной помощи могут тратить до половины своего рабочего дня, взаимодействуя с EHR1, что сокращает время, затрачиваемое на уход за пациентами2. Кроме того, нагрузка на документацию может снизить удовлетворенность врачей и даже привести к их выгоранию3. Кроме того, данные ЭМК часто являются предвзятыми4 и страдают от отсутствия и неполноты данных5,6. Здесь мы стремимся разработать методы машинного обучения для решения этих ключевых проблем и раскрытия потенциала EHR при посещении амбулаторного отделения.
Ключевым направлением нашей работы является прогнозирование вероятных диагнозов пациентов на основании их истории болезни. В последние годы было проведено большое количество работ по прогнозированию диагнозов и результатов лечения пациентов на основе истории болезни, полученной из ЭМК7,8,9. Наша работа ориентирована исключительно на амбулаторные посещения. Что касается методов, недавние работы в значительной степени были сосредоточены на подходах глубокого обучения10; однако здесь мы предлагаем классические модели машинного обучения, такие как логистическая регрессия и случайные леса, которые предлагают гораздо большую интерпретируемость, а также модульность и масштабируемость. Наконец, вместо того, чтобы сосредотачиваться только на одном или нескольких заболеваниях11, мы оцениваем эти модели по широкому спектру заболеваний на соответствующем уровне детализации с учетом ограничений данных. Это мотивировано тем фактом, что пациенты в амбулаторной клинике часто страдают множественными хроническими и острыми заболеваниями, и хотя модели одного заболевания очень полезны, быстро становится обременительным поддерживать и получать значимые прогнозы на основе множества несопоставимых моделей. Мы представляем единый подход к моделированию широкого спектра практики в поликлинике.