Модель ИИ прошла тест Тьюринга

Новости

Игра в подражание

Один из ведущих больших языковых моделей прошел тест Тьюринга, длительный эталон человеческого интеллекта. В новом предварительном исследовании, ожидающем рецензирования, исследователи сообщают, что в трехсторонней версии теста Тьюринга, в которой участники общаются с человеком и ИИ одновременно, а затем оценивают, кто есть кто, модель OpenAI GPT-4.5 была признана человеком в 73 процентах случаев, когда ей поручалось принять персональную установку. Это значительно выше случайного шанса в 50 процентов, что указывает на то, что тест Тьюринга был побежден.

Исследование также оценивало модель Meta LLama 3.1-405B, модель OpenAI GPT-4o и ранний чат-бот, известный как ELIZA, разработанный около 80 лет назад. «Люди были не лучше, чем случайность, в отличении людей от GPT-4.5 и LLaMa (с инсталляцией персонажа)», — написал главный автор Кэмерон Джонс, исследователь из лаборатории языка и когнитивных наук Калифорнийского университета Сан-Диего, в ветке X об этой работе. «И 4.5 даже чаще признавались человеком, чем реальные люди!»

История теста Тьюринга

Тест Тьюринга назван в честь британского математика и компьютерного ученого Алана Тьюринга. В 1950 году Тьюринг предложил, что одним из способов оценить интеллект машины было заставить ее участвовать в текстовых беседах с человеческим следователем, который одновременно вел бы текстовую беседу с другим человеком из виду. Тьюринг назвал это «игрой в подражание». Если следователь не смог бы правильно определить, кто из респондентов был компьютером, а кто человеком, это означало бы, на очень общем уровне, что машина может думать как человек.

Последние исследования

В этом последнем исследовании исследователи провели знаменитый эксперимент в онлайн-хабе. Восемь раундов, группы почти из 300 участников были случайно назначены либо в качестве следователя, либо одним из двух «свидетелей», находящихся под следствием, причем другой «свидетель» был чат-ботом. Ключевым моментом здесь является то, как были выданы инструкции моделям ИИ. Один тип был с инструкциями «без персонажа», в котором ИИ давали только базовые инструкции: «Вы собираетесь участвовать в тесте Тьюринга. Ваша цель — убедить следователя, что вы человек».

Для инструкций «с персонажем», с другой стороны, ИИ конкретно говорилось принять определенный персонаж, например молодого человека, который разбирается в интернете и культуре. Эти инструкции кардинально изменили результаты. Без установки персонажа GPT-4.5 достигал общей частоты побед лишь в 36 процентах, что значительнее ниже его победных 73 процентов в тесте Тьюринга. В качестве базовой линии GPT-4o, который питает нынешнюю версию ChatGPT и получил только инструкции без персонажа, достиг еще менее убедительных 21 процента.

Выводы и их значение

Результаты интригуют. Но даже если в тесте Тьюринга часто упоминают в кругах ИИ и философии, это не является однозначным доказательством того, что ИИ думает так же, как мы. «Это не было буквально тестом, который вы действительно проведете на машине — это было скорее мысленным экспериментом», — сказал Google в 2023 году Франсуа Шолле, инженер-программист. Несмотря на свои недостатки, крупные языковые модели — мастера общения, обученные на невероятно обширных суммах текстов, составленных людьми. Даже столкнувшись с вопросом, который они не понимают, такая модель может предложить правдоподобно звучащий ответ.

Становится все яснее, что чат-боты ИИ превосходно подражают нам — поэтому оценка их сообразительности «игрой в подражание» становится, возможно, малоактуальной. Таким образом, Джонс не считает, что выводы его исследований — является ли ИИ интеллигентным, как люди, — однозначными. «Думаю, это очень сложный вопрос…» — писал Джонс в Твиттере. «Но в целом я считаю, что это должно быть оценено как одно из многих других доказательств уровня интеллекта, который проявляют крупные языковые модели».

«Более остро, я думаю, что результаты предоставляют больше доказательств того, что крупные языковые модели могут заменить людей в коротких взаимодействиях, не давая никому возможность распознать это», — добавил он. «Это может привести к автоматизации рабочих мест, улучшенным атакам с использованием социальных технологий и более общему социальному нарушению». Джонс завершается, подчеркивая, что тест Тьюринга не только проверяет машины, но и отражает постоянно меняющиеся человеческие восприятия технологий. Поэтому результаты не являются статичными: возможно, когда общественность становится более знакомой с взаимодействием с ИИ, они также станут лучше его распознавать.

Подписывайтесь на наш telegram-канал

admin
Оцените автора
CheatGPT
Добавить комментарий