Введение BingoGuard
Развитие крупных языковых моделей (LLMs) существенно повлияло на интерактивные технологии, представляя как преимущества, так и вызовы. Одной из основных проблем, связанных с этими моделями, является их потенциальная способность генерировать вредоносный контент. Традиционные системы модерации, обычно использующие бинарную классификацию (безопасно против небезопасно), не обладают достаточной детализацией для эффективного различения уровней вредоносности.
Эти ограничения могут привести к чрезмерно строгой модерации, снижению взаимодействия пользователей или неадекватной фильтрации, что может подвергнуть пользователей вредоносному контенту. Salesforce AI представляет BingoGuard, систему модерации на основе LLM, разработанную для устранения недостатков бинарной классификации, предсказывая как бинарные метки безопасности, так и детализированные уровни серьезности. BingoGuard использует структурированную таксономию, категоризируя потенциально вредоносный контент в одиннадцать конкретных областей, включая насильственные преступления, сексуальный контент, вульгарные высказывания, нарушения конфиденциальности и контент, связанный с оружием.
Технические аспекты
Каждая категория включает пять четко определенных уровней серьезности, от безобидного (уровень 0) до экстремального риска (уровень 4). Эта структура позволяет платформам точно настраивать свои параметры модерации в соответствии с их специфическими руководствами по безопасности, обеспечивая надлежащее управление контентом в различных контекстах серьезности. С технической точки зрения BingoGuard использует методологию «генерация-затем-фильтрация» для создания своей комплексной тренировочной базы данных, BingoGuardTrain, состоящей из 54 897 записей, охватывающих множество уровней серьезности и стилей контента.
Эта платформа первоначально генерирует ответы, адаптированные к разным уровням серьезности, затем фильтруя эти выводы для обеспечения соответствия определенным стандартам качества и актуальности. Специализированные LLM проходят индивидуальные процессы тонкой настройки для каждого уровня серьезности, используя тщательно отобранные и проверенные наборы данных. Эта тонкая настройка гарантирует, что создаваемые выходы строго соответствуют предопределенным критериям серьезности.
Эмпирическая оценка
Результирующая модель модерации, BingoGuard-8B, использует эту тщательно отобранную базу данных, обеспечивая точное различие между различными степенями вредоносного контента. В результате значительно улучшаются точность и гибкость модерации. Эмпирическая оценка BingoGuard показывает высокую производительность. Тестирование на BingoGuardTest, наборе данных с экспертной меткой, включающем 988 примеров, показало, что BingoGuard-8B достигает более высокой точности обнаружения по сравнению с ведущими моделями модерации, такими как WildGuard и ShieldGemma, с улучшением до 4,3%.
Особенно примечательно, что BingoGuard демонстрирует превосходную точность в выявлении контента с низкими уровнями серьезности (уровни 1 и 2), что традиционно сложно для систем бинарной классификации. Анализы также выявили относительно слабую корреляцию между предсказанными вероятностями «небезопасности» и фактическим уровнем серьезности, подчеркивая необходимость явного включения различий в серьезности. Эти результаты иллюстрируют фундаментальные пробелы в текущих методах модерации, которые в основном полагаются на бинарную классификацию.
Заключение
В заключение, BingoGuard повышает точность и эффективность модерации контента с использованием ИИ за счет интеграции оценок тяжести вместе с бинарными оценками безопасности. Этот подход позволяет платформам лучше обрабатывать модерацию с большей точностью и чувствительностью, минимизируя риски, связанные с как чрезмерной осторожностью, так и недостаточной модерацией.
Таким образом, BingoGuard от Salesforce предоставляет усовершенствованную структуру для решения сложных задач модерации контента в условиях все более сложных взаимодействий, генерируемых ИИ.








