Даже если маловероятно, что шестимесячный мораторий на разработку ИИ будет продолжен, похоже, что GPT-4 имеет возможность сделать огромный скачок вперед, если он просто внимательно присмотрится к себе. Исследователи попросили GPT раскритиковать собственную работу по повышению производительности на 30%.
«Не каждый день люди разрабатывают новые методы для достижения самых современных стандартов, используя процессы принятия решений, которые когда-то считались уникальными для человеческого интеллекта», — пишут исследователи Ноа Шинн и Ашвин Гопинат. «Но именно это мы и сделали».
Техника «Рефлексия» использует и без того впечатляющую способность GPT-4 выполнять различные тесты и представляет «структуру, которая позволяет агентам ИИ эмулировать человеческое саморефлексию и оценивать ее производительность». По сути, он вводит дополнительные шаги, на которых GPT-4 разрабатывает тесты для критики своих собственных ответов, ищет ошибки и оплошности, а затем переписывает свои решения на основе того, что он нашел.
В тесте кодирования HumanEval точность GPT-4 увеличилась с 67 % до 88 %, что является впечатляющим скачком благодаря использованию саморефлексивных петель Северо-Западного университета/MIT
Команда использовала свою технику для нескольких различных тестов производительности. В тесте HumanEval, который состоит из 164 задач программирования на Python, с которыми модель никогда не сталкивалась, GPT-4 набрал рекордные 67%, но с использованием техники Reflexion его результат подскочил до очень впечатляющих 88%.
В тесте Alfworld, который проверяет способность ИИ принимать решения и решать многоэтапные задачи, выполняя несколько различных допустимых действий в различных интерактивных средах, техника Reflexion повысила производительность GPT-4 примерно с 73% до почти идеальных 97%. %, не выполнив только 4 из 134 задач.
В другом тесте под названием HotPotQA языковой модели был предоставлен доступ к Википедии, а затем предоставлено 100 из 13 000 возможных пар вопросов/ответов, которые «заставляют агентов анализировать содержание и аргументы в нескольких подтверждающих документах». В этом тесте GPT-4 показал точность всего 34%, но GPT-4 с Reflexion показал значительно лучшие результаты с 54%.
Все чаще решение проблем ИИ оказывается в большей степени ИИ. В некотором смысле это немного похоже на генеративно-состязательную сеть, в которой два ИИ оттачивают навыки друг друга, один пытается генерировать изображения, например, которые нельзя отличить от «настоящих» изображений, а другой пытается сказать поддельные от настоящих. Но в данном случае GPT является и автором, и редактором, работающим над улучшением собственного вывода.
Очень аккуратно!
Статья доступна на Arxiv.