Проблемы использования больших языковых моделей в медицине
Большие языковые модели (LLMs) широко применяются в медицине, оказывая помощь в диагностическом принятии решений, сортировке пациентов, составлении клинических отчетов и медицинских исследованиях. Однако, несмотря на их успешность в контролируемых медицинских тестах, таких как Licensing Examination (USMLE) в США, их полезность в реальных условиях ещё недостаточно изучена. Большинство существующих оценок опираются на синтетические данные, которые не отражают сложность клинической практики.
Лишь 5% анализа LLM основано на реальных данных пациентов, что подчеркивает значительное несоответствие между тестированием и фактической применимостью моделей. Это ставит под сомнение надёжность использования LLM в медицинских решениях, включая их безопасность и эффективность в клинических условиях.
Передовой метод оценки LLM в медицинских задачах
Современные методы оценки, как правило, используются для оценки языковых моделей на основе синтетических наборов данных и структурированных тестов. Эти экзамены проверяют теоретические знания, но не учитывают реальные сценарии пациент-врач. Большинство тестов предоставляют единичные результаты оценки, не обращая внимания на критические детали, такие как корректность фактов и клиническая применимость.
Для решения этих вопросов был разработан MedHELM, всесторонняя оценочная модель, тестирующая LLM в реальных медицинских задачах при помощи экспертно пересмотренных эталонов. Эта структура Холистической оценки языковых моделей (HELM) включает систематическую оценку по пяти основным направлениям:
- Поддержка принятия клинических решений
- Генерация клинических записей
- Общение и образование пациентов
- Поддержка медицинских исследований
- Администрация и рабочий процесс
В общей сложности, MedHELM включает 22 подкатегории и 121 конкретную медицинскую задачу, что обеспечивает широкий охват важных аспектов здравоохранения. В отличие от других стандартов, MedHELM использует реальные клинические данные и оценивает модели как на структурированных, так и на открытых задачах, применяя многогранные оценки.
Объёмная база данных для комплексной оценки
Оценочный процесс поддерживается обширной инфраструктурой наборов данных, состоящей из 31 набора. Эта коллекция включает 11 новых медицинских наборов данных и 20, полученных из существующих клинических записей. Данные охватывают различные медицинские области, гарантируя, что оценки точно отражают реальные вызовы здравоохранения, а не искусственные сценарии тестирования.
Процесс конверсии наборов данных включает несколько этапов:
- Определение контекста: конкретный сегмент данных, который модель должна проанализировать (например, клинические записи).
- Стратегия подсказок: предопределённая инструкция для модели (например, «Определите количество баллов HAS-BLED»).
- Сравнительная реакция: клинически проверенный выходной сигнал для сравнения (например, классификационные метки).
- Метрики оценки: комбинация методов точного соответствия, точности классификации, BLEU, ROUGE и BERTScore для оценки текстового сходства.
Результаты тестирования и потенциал MedHELM
Оценка шести языковых моделей различной величины показала уникальные сильные и слабые стороны в зависимости от сложности задач. Крупные модели, такие как GPT-4o и Gemini 1.5 Pro, продемонстрировали высокие результаты в медицинских рассуждениях и вычислениях, особенно в оценке клинического риска. Модели среднего размера, как Llama-3.3-70B-instruct, показали конкурентоспособность в прогнозировании риска повторной госпитализации. Однако небольшие модели, как Phi-3.5-mini-instruct и Qwen-2.5-7B-instruct, показали низкую эффективность в тестах на знание специфических медицинских областей.
Также были выявлены ограничения в текущих автоматизированных оценках, как например, механизмы NLP, которые часто упускают клиническую точность. В большинстве тестов разница в производительности моделей оставалась незначительной при использовании BERTScore-F1 в качестве метрики, что указывает на необходимость в более строгих оценочных процедурах, включающих оценку на основе фактов и точную обратную связь от врачей.
Благодаря внедрению клинически направленной многомерной оценки MedHELM предлагает всестороннее и надёжное средство оценки языковых моделей в медицине. В перспективе MedHELM поможет проводить оценки на основе реальных клинических задач, организованных тестов на рассуждения и разнообразных наборов данных вместо искусственных тестов.








