Всесторонняя оценка языковых моделей в здравоохранении: MedHELM и его значимость

Новости

Проблемы использования больших языковых моделей в медицине

Большие языковые модели (LLMs) широко применяются в медицине, оказывая помощь в диагностическом принятии решений, сортировке пациентов, составлении клинических отчетов и медицинских исследованиях. Однако, несмотря на их успешность в контролируемых медицинских тестах, таких как Licensing Examination (USMLE) в США, их полезность в реальных условиях ещё недостаточно изучена. Большинство существующих оценок опираются на синтетические данные, которые не отражают сложность клинической практики.

Лишь 5% анализа LLM основано на реальных данных пациентов, что подчеркивает значительное несоответствие между тестированием и фактической применимостью моделей. Это ставит под сомнение надёжность использования LLM в медицинских решениях, включая их безопасность и эффективность в клинических условиях.

Передовой метод оценки LLM в медицинских задачах

Современные методы оценки, как правило, используются для оценки языковых моделей на основе синтетических наборов данных и структурированных тестов. Эти экзамены проверяют теоретические знания, но не учитывают реальные сценарии пациент-врач. Большинство тестов предоставляют единичные результаты оценки, не обращая внимания на критические детали, такие как корректность фактов и клиническая применимость.

Для решения этих вопросов был разработан MedHELM, всесторонняя оценочная модель, тестирующая LLM в реальных медицинских задачах при помощи экспертно пересмотренных эталонов. Эта структура Холистической оценки языковых моделей (HELM) включает систематическую оценку по пяти основным направлениям:

  • Поддержка принятия клинических решений
  • Генерация клинических записей
  • Общение и образование пациентов
  • Поддержка медицинских исследований
  • Администрация и рабочий процесс

В общей сложности, MedHELM включает 22 подкатегории и 121 конкретную медицинскую задачу, что обеспечивает широкий охват важных аспектов здравоохранения. В отличие от других стандартов, MedHELM использует реальные клинические данные и оценивает модели как на структурированных, так и на открытых задачах, применяя многогранные оценки.

Объёмная база данных для комплексной оценки

Оценочный процесс поддерживается обширной инфраструктурой наборов данных, состоящей из 31 набора. Эта коллекция включает 11 новых медицинских наборов данных и 20, полученных из существующих клинических записей. Данные охватывают различные медицинские области, гарантируя, что оценки точно отражают реальные вызовы здравоохранения, а не искусственные сценарии тестирования.

Процесс конверсии наборов данных включает несколько этапов:

  • Определение контекста: конкретный сегмент данных, который модель должна проанализировать (например, клинические записи).
  • Стратегия подсказок: предопределённая инструкция для модели (например, «Определите количество баллов HAS-BLED»).
  • Сравнительная реакция: клинически проверенный выходной сигнал для сравнения (например, классификационные метки).
  • Метрики оценки: комбинация методов точного соответствия, точности классификации, BLEU, ROUGE и BERTScore для оценки текстового сходства.

Результаты тестирования и потенциал MedHELM

Оценка шести языковых моделей различной величины показала уникальные сильные и слабые стороны в зависимости от сложности задач. Крупные модели, такие как GPT-4o и Gemini 1.5 Pro, продемонстрировали высокие результаты в медицинских рассуждениях и вычислениях, особенно в оценке клинического риска. Модели среднего размера, как Llama-3.3-70B-instruct, показали конкурентоспособность в прогнозировании риска повторной госпитализации. Однако небольшие модели, как Phi-3.5-mini-instruct и Qwen-2.5-7B-instruct, показали низкую эффективность в тестах на знание специфических медицинских областей.

Также были выявлены ограничения в текущих автоматизированных оценках, как например, механизмы NLP, которые часто упускают клиническую точность. В большинстве тестов разница в производительности моделей оставалась незначительной при использовании BERTScore-F1 в качестве метрики, что указывает на необходимость в более строгих оценочных процедурах, включающих оценку на основе фактов и точную обратную связь от врачей.

Благодаря внедрению клинически направленной многомерной оценки MedHELM предлагает всестороннее и надёжное средство оценки языковых моделей в медицине. В перспективе MedHELM поможет проводить оценки на основе реальных клинических задач, организованных тестов на рассуждения и разнообразных наборов данных вместо искусственных тестов.

admin
Оцените автора
CheatGPT
Добавить комментарий