Введение в дискуссию о человеческом разуме
В последние десятилетия исследователи в области психологии ведут активные дискуссии по поводу ключевого вопроса: может ли одна универсальная теория объяснить работу человеческого разума, или каждому аспекту — вниманию, памяти и принятию решений — необходимы собственные модели?
Исследование Centaur
Недавнее исследование, опубликованное в журнале Nature, касалось модели искусственного интеллекта под названием Centaur, которая была создана путём дообучения крупной языковой модели на данных психологических экспериментов. Модель была способна предсказывать человеческое поведение в рамках 160 когнитивных задач, охватывающих такие области, как принятие решений и исполнительный контроль. Эти результаты вызвали большой интерес, посияв надеждой на создание единой модели, способной имитировать многие аспекты человеческого мышления.
Критика исследования
Однако на данный момент эта смелая идея столкнулась с критикой. Исследователи из Университета Чжэцзян опубликовали свою статью в журнале National Science Open, в которой утверждается, что результаты Centaur могут не отражать реального понимания задачи. По их мнению, модель, вероятно, переобучилась на данных и научилась распознавать паттерны ответов, а не осознала, что требуется от задач.
Сравнение с другими моделями
Команда из Чжэцзяна поставила под сомнение вопрос: что происходит, если убрать ту информацию, которую модель призвана оценивать? Для этого они создали три условия тестирования. В первом случае, называемом «без инструкций», они полностью убрали указания к задаче. Во втором условии, «без контекста», удалили и инструкции, и процедуры. В третьем же условия вместо оригинальных инструкций использовалась вводящая в заблуждение директива. Результаты продемонстрировали, что, хотя Centaur и показывала неплохие результаты, её эффективное функционирование при отсутствии ключевой информации ставит под сомнение глубину понимания модели.
Паттерны вместо смысла
Центр исследования подразумевает, что модель скорее полагается на статистические подсказки, встроенные в выборку данных, чем на истинное понимание задачи. Например, в тестах на чтение часто верным оказывается вариант «Все вышеперечисленные». Модели, обученные на таких данных, могут развить предвзятость к этому ответу, что является признаком поверхностного понимания.
Практическое значение и выводы
Данная критика касается не только самой модели Centaur, но и общей концепции использования больших языковых моделей для имитации человеческого поведения. Если такие модели не способны последовательно следовать даже измененным инструкциям, это поднимает вопросы о том, насколько они действительно понимают такие когнитивные процессы, как внимание и память.
Для учёных результаты данной работы служат напоминанием о необходимости строгих оценок — модели должны проверяться в сложных или вводящих в заблуждение условиях, а не только на чистых контрольных выборках. Для разработчиков ИИ это подчеркивает ограничения дообучения, так как высокая производительность на подобранных наборах данных может скрыть уязвимое понимание.
Для широкой аудитории важно осознавать, что заявления о том, что машины могут моделировать человеческий разум, требуют критического анализа. Высокие баллы не всегда означают глубокое понимание.
Таким образом, стремление к созданию унифицированных когнитивных моделей будет продолжаться, но этот научный диалог демонстрирует, что прогресс требует как инноваторского подхода, так и здорового скептицизма. На некоторые вопросы о разуме нет простых ответов, даже для машин, обученных на миллионах слов.
Исследование доступно в журнале National Science Open, и его выводы могут сильно повлиять на будущее исследований в области психологии и искусственного интеллекта.





