
Если прислушаться к весьма убедительным аргументам предсказателей ИИ, грядущие поколения искусственного интеллекта представляют собой глубокую опасность для человечества – потенциально даже экзистенциальный риск.
Мы все видели, как легко обманом заставить такие приложения, как ChatGPT, сказать или сделать неприличные вещи, которых они не должны делать. Мы видели, как они пытались скрыть свои намерения, искать и консолидировать власть. Чем больше доступа ИИ будет предоставлено к физическому миру через Интернет, тем больше у него будет возможностей причинять вред различными творческими способами, если они решат это сделать.
Зачем им это делать? Мы не знаем. Фактически, их внутренняя работа была более или менее совершенно непрозрачной даже для компаний и частных лиц, которые их создают.
Непостижимый инопланетный «разум» моделей искусственного интеллекта
Эти замечательные программы сильно отличаются от большей части того, что было до них. Их создатели-люди создали архитектуру, инфраструктуру и методы, с помощью которых эти искусственные разумы могут развивать свою версию интеллекта, и снабдили их огромными объемами текста, видео, аудио и других данных, но с этого момента ИИ пошли дальше и создали собственное «понимание» мира.
Они преобразуют эти огромные массивы данных в крошечные обрывки, называемые токенами, иногда в части слов, иногда в части изображений или фрагменты звука. А затем они создают невероятно сложный набор вероятностных весов, связывающих токены друг с другом и группы токенов с другими группами. В этом смысле они напоминают человеческий мозг: он находит связи между буквами, словами, звуками, изображениями и более расплывчатыми понятиями и выстраивает их в безумно сложную нейронную сеть.

Масштабно большие объемы данных на входе, а на выходе — очень сложные нейронные сети
Эти колоссальные матрицы, полные вероятностных весов, представляют собой «разум» ИИ, и они управляют его способностью получать входные данные и отвечать определенными выходными данными. И, как и в случае с человеческим мозгом, который вдохновил их дизайн, было почти невозможно точно выяснить, что они «думают» или почему они принимают определенные решения.
Лично я представлял их себе как странные инопланетные разумы, запертые в черных ящиках. Они могут общаться с миром только через ограниченные каналы, по которым информация может поступать в них и из них. И все попытки «настроить» эти разумы на продуктивную, безопасную и безобидную работу вместе с людьми были сделаны на уровне каналов, а не на уровне самих «разумов».
Мы не можем говорить им, что думать, мы не знаем, где в их мозгу живут грубые слова или злые концепции, мы можем только ограничивать то, что они могут говорить и делать – концепция, которая сейчас трудна, но обещает стать все труднее с течением времени. умнее они становятся.
Это мое весьма упрощенное, тупое понимание запутанной и сложной ситуации – и, пожалуйста, переходите к комментариям, чтобы расширить, задать вопросы, обсудить или уточнить, если это необходимо – но это дает некоторое представление о том, почему я думаю, что новости, вышедшие из Anthropic, и OpenAI в последнее время стала важной вехой в отношениях человечества с ИИ.
Что такое интерпретируемость?
Интерпретация: заглянуть в черный ящик
«Сегодня, — пишет команда Anthropic Interpretability в своем блоге в конце мая, — мы сообщаем о значительном прогрессе в понимании внутренней работы моделей ИИ. Мы определили, как миллионы концепций представлены в Claude Sonnet, одном из наших развернутых крупных Это первый детальный взгляд на современную большую языковую модель промышленного уровня. Это открытие интерпретируемости может в будущем помочь нам сделать модели ИИ более безопасными».
По сути, команда Anthropic отслеживала «внутреннее состояние» своих моделей ИИ во время их работы, заставляя их выдавать огромные списки чисел, представляющих «активации нейронов» в их искусственном мозге при взаимодействии с людьми. «Оказывается, — пишет команда, — что каждое понятие представлено множеством нейронов, и каждый нейрон участвует в представлении множества понятий».
Используя технику под названием «обучение по словарю» с помощью «разреженных автокодировщиков», исследователи-антропологи начали пытаться сопоставить паттерны «активаций нейронов» с концепциями и идеями, знакомыми человеку. В конце прошлого года они добились определенного успеха, работая с очень маленькими «игрушечными» версиями языковых моделей, обнаружив «паттерны мышления», которые активировались, когда модели имели дело с такими идеями, как последовательности ДНК, существительные в математике и текст в верхнем регистре.
Это было многообещающее начало, но команда ни в коем случае не была уверена, что оно сможет масштабироваться до гигантских размеров сегодняшних коммерческих LLM, не говоря уже о машинах, которые последуют за ними. Поэтому Anthropic создала модель обучения словарю, способную работать с собственным LLM Claude 3 Sonnet среднего размера, и приступила к тестированию подхода в масштабе.
Результаты? Что ж, команда была в восторге. «Мы успешно извлекли миллионы функций из среднего уровня сонета Claude 3.0, — говорится в сообщении в блоге. — Предоставив приблизительную концептуальную карту его внутренних состояний на полпути вычислений. Это первый в истории подробный взгляд на современную производственную систему». оцените модель большого языка.»

Мультимодальный модели разрабатывают независимые концепции, такие как «Мост Золотые Ворота», к которым можно получить доступ через изображения и текст на нескольких языках. Антропный
Интересно узнать, что ИИ хранит концепции способами, независимыми от языка или даже типа данных; Например, «идея» моста Золотые Ворота загорается, когда модель обрабатывает изображения моста или текст на нескольких разных языках.
И «идеи» также могут стать намного более абстрактными; команда обнаружила функции, которые активируются при возникновении таких вещей, как ошибки кодирования, гендерная предвзятость или множество различных способов подхода к концепции конфиденциальности или секретности.

Все самые мрачные идеи человечества и все ваши страхи по поводу ИИ четко показаны на концептуальных картах. Антропный
И действительно, команде удалось обнаружить все виды тьмы в концептуальной сети ИИ, от идей о бэкдорах кода и биологическом оружии. развития, концепциям расизма, сексизма, стремления к власти, обмана и манипуляции. Это все там.
Более того, исследователи смогли изучить взаимосвязь между различными концепциями, хранящимися в «мозге» модели, определить меру «расстояния» между ними и построить серию интеллектуальных карт, которые показывают, насколько тесно связаны между собой концепции. Например, рядом с концепцией моста Золотые Ворота команда обнаружила и другие особенности, такие как остров Алькатрас, команду Голден Стэйт Уорриорз, губернатора Калифорнии Гэвина Ньюсома и землетрясение в Сан-Франциско 1906 года.

Команда разработала способ измерения «расстояний» между понятиями, что позволило создавать невероятные концептуальные карты ума. Антропный
То же самое справедливо и для более абстрактных концепций, вплоть до идеи ситуации «Уловка-22», которую модель сгруппировала рядом с «невозможным выбором», «сложными ситуациями», «любопытными парадоксами» и «между камнем и твердым камнем». место.' «Это показывает, — пишет команда, — что внутренняя организация концепций в модели ИИ, по крайней мере, в некоторой степени соответствует нашим человеческим представлениям о сходстве. Это может быть источником превосходной способности Клода проводить аналогии и метафоры».
Начало хирургии головного мозга с использованием искусственного интеллекта – и потенциальная лоботомия
«Важно, — пишет команда, — что мы также можем манипулировать этими функциями, искусственно усиливая или подавляя их, чтобы увидеть, как Реакция Клода меняется.»
Команда начала «зажимать» определенные концепции, изменяя модель так, чтобы определенные функции активировались, поскольку она отвечала на совершенно несвязанные вопросы, и обнаружила, что это радикально изменило поведение модели, как показано в видео ниже.
Изучение словаря по Сонету Клода 3
Это довольно невероятная вещь; Anthropic показала, что может не только создавать интеллект-карту искусственного интеллекта — она также может редактировать отношения внутри этой карты разума и играть с пониманием мира модели — и, следовательно, с ее поведением.
Потенциал с точки зрения безопасности ИИ здесь очевиден; если вы знаете, где находятся плохие мысли, и вы можете видеть, когда ИИ их думает, ну, у вас есть дополнительный уровень надзора, который может быть использован в надзорном смысле. И если вы можете усилить или ослабить связи между определенными концепциями, вы потенциально можете заставить определенные виды поведения исчезнуть из диапазона возможных ответов ИИ или даже вычеркнуть определенные идеи из его понимания мира.
Концептуально это напоминает Джима Керри и Кейт Уинслет, которые платили компании по стиранию мозгов, чтобы те удалили друг друга из их воспоминаний после разрыва, в научно-фантастическом шедевре Вечное сияние чистого разума.И, как и фильм, это поднимает вопрос: можно ли когда-нибудь действительно удалить сильную идею?
Команда Anthropic также доказала потенциальную опасность такого подхода, «ограничив» концепцию мошеннических электронных писем и показав, как достаточно мощная мысленная связь с этой идеей может быстро обойти тренировку согласования модели Клода, запрещающую ей писать такой контент. Такая операция на мозге с помощью ИИ действительно может повысить потенциал злонамеренного поведения модели и позволить ей прорваться сквозь собственные ограждения.

Изменение силы нейронных связей ИИ может радикально изменить его поведение. Anthropic
У Anthropic есть и другие сомнения относительно масштабов этой технологии. «Работа действительно только началась», — пишет команда. «Обнаруженные нами функции представляют собой небольшое подмножество всех концепций, изученных моделью во время обучения, и поиск полного набора функций с использованием наших текущих методов был бы непомерно затратным (вычисления, необходимые для нашего текущего подхода, значительно превысят используемые вычисления). для обучения модели в первую очередь).
«Понимание представлений, которые использует модель, не говорит нам о том, как она их использует; даже несмотря на то, что у нас есть функции, нам все равно нужно найти схемы, в которых они задействованы. И нам нужно показать, что функции, важные для безопасности, мы начали find на самом деле можно использовать для повышения безопасности. Еще многое предстоит сделать.
Другими словами, такого рода вещи могут быть чрезвычайно ценным инструментом, но вряд ли когда-либо полностьюпонять мыслительные процессы искусственного интеллекта коммерческого масштаба. Это мало утешит предсказателей конца света, которые укажут, что, когда последствия потенциально экзистенциальны, вероятность успеха в 99,999% не поможет.
Тем не менее, это феноменальный прорыв и замечательное понимание того, как эти невероятные машины понимают мир. Было бы интересно увидеть, насколько близко ментальная карта ИИ соответствует человеческой, если когда-нибудь можно будет это измерить.
OpenAI: также работает над интерпретируемостью, но, видимо, сильно отстает
Anthropic — один из ключевых игроков в современной области искусственного интеллекта и LLM, но мощнейшей силой в этой области по-прежнему остается OpenAI, создатель новаторских моделей GPT и, конечно же, компания, которая активнее всего стимулирует общественный разговор об искусственном интеллекте.
Действительно, Anthropic была основана в 2021 году группой бывших сотрудников OpenAI, чтобы поставить безопасность и надежность ИИ на первое место в списке приоритетов, в то время как OpenAI стала партнером Microsoft и начала действовать больше как коммерческая организация.
Но OpenAI также работает над интерпретируемостью и использует очень похожий подход. В исследовании, опубликованном в начале июня, команда OpenAI Interpretability объявила, что обнаружила около 16 миллионов «мысленных» шаблонов в GPT-4, многие из которых, по мнению команды, можно расшифровать и сопоставить с концепциями, значимыми для человека.
Команда OpenAI, похоже, еще не занималась созданием карт или редактированием разума, но она также отмечает проблемы, связанные с пониманием работы большой модели ИИ. «В настоящее время, — пишет команда, — передача активаций GPT-4 через разреженный автокодировщик приводит к производительности, эквивалентной модели, обученной с использованием примерно в 10 раз меньше вычислительных ресурсов. Чтобы полностью отобразить концепции в передовых LLM, нам, возможно, придется масштабироваться до миллиардов или триллионы функций, что было бы непросто даже с нашими усовершенствованными методами масштабирования».
Итак, для обеих компаний это только начало. Но, по крайней мере, у человечества теперь есть как минимум два способа открыть «черный ящик» нейронной сети ИИ и начать понимать, как он думает.
Исследовательский документ OpenAI доступен здесь.
Антропный исследовательский документ доступен здесь.
Послушайте, как члены группы Anthropic по интерпретации подробно обсуждают это исследование в видеоролике ниже.
Масштабирование интерпретируемости




