Новости

Сильнее меча: невозможные дилеммы правды и предвзятости OpenAI

Сильнее меча: невозможные дилеммы истины и предвзятости OpenAI

Необработанная языковая модель GPT-4 — и любая подобная ей модель — способна написать более или менее все, что может написать человек. Это включает в себя непристойный и порнографический контент — как ни странно, большой фаворит среди многих первых пользователей — а также контент, который многие сочли бы ненавистным, вредным и опасным.

Даже если не принимать во внимание возможность того, что они могут попытаться убить нас всех, эти ИИ могут, например, стать величайшим инструментом дезинформации из когда-либо созданных. Если вы хотите начать новую теорию заговора, вы можете использовать GPT для мгновенного создания множества веб-сайтов, излагающих аргументы, а затем наводнять социальные сети и доски объявлений сообщениями и комментариями в поддержку. Человеческий разум любит хорошее повествование и склонен формировать мнения, основанные на мудрости масс, что делает нас легкой мишенью для таких манипуляций.

Таким образом, OpenAI сделал все возможное, чтобы укротить зверя, скрывающегося в GPT. Нет никакого способа проникнуть в мозг базовой модели и отключить такие вещи, как расизм, геноцидные тенденции, дезинформацию или ненависть. Но вы можете «настроить» его вывод, чтобы получить от него то, что вы хотите, предоставив ему множество образцов пар вопросов и ответов, чтобы направлять его, а затем используя обучение с подкреплением на основе отзывов людей, или RLHF, что часто принимает форму людей, выбирающих лучший из двух разных ответов GPT на один и тот же вопрос или дающих обратную связь в стиле «большой палец вверх/большой палец вниз».

Чтобы создать в целом полезный, безопасный и безобидный продукт, OpenAI использовал RLHF, чтобы сгладить его края, к большому раздражению людей, которые рассматривают элементы управления безопасностью как снисходительные дополнения, которые делают инструмент менее полезным. который избегает создания резкого, забавного, язвительного или противоречивого текста.

Это не только убивает его способность писать забавные лимерики, но и поднимает хорошие вопросы. Например, кто может выбирать, какие нравы и стандарты управляют этими экстраординарными «машинами для чего угодно»? Почему такой ответственный член общества, как я, не может иметь GPT, который ругается так же много, как и я, и пишет искрометную, сочную, специально подобранную порнографию с моими любимыми чемпионами по дартсу в главных ролях, чтобы согреть меня холодными ночами?

Кроме того, как вы создаете языковые модели, которые обслуживают каждый карман человечества, вместо того, чтобы продвигать часто однородные взгляды групп, которые чрезмерно представлены в Силиконовой долине, где построена GPT? Когда эти машины произносят миллионы слов, кто становится арбитром истины в последней инстанции? Как они должны решать спорные вопросы, чреватые разногласиями? Можно ли создать справедливый и сбалансированный ИИ в мире, где фраза «справедливый и сбалансированный» сама по себе стала ироничной изюминкой?

В экстраординарном недавнем интервью генерального директора OpenAI Сэма Альтмана с исследователем ИИ и ведущим подкаста Лексом Фридманом эти темы поднимались несколько раз, и ясно, что он потратил много времени на размышления об этом. Вот некоторые ключевые моменты, написанные самим Альтманом и отредактированные для ясности.

Содержание

Непредвзятый ИИ — недостижимая цель

«Ни один человек никогда не согласится с тем, что одна-единственная модель беспристрастна по каждой теме. И я думаю, что ответ будет заключаться в том, чтобы предоставить пользователям более персонализированный контроль, детальный контроль во времени… Не существует единого набора человеческих ценностей, или не существует единого набора правильных ответов для человеческой цивилизации, поэтому я думаю, что должно произойти следующее: нам как обществу нужно будет прийти к соглашению в очень широких пределах – мы только иметь возможность договориться в очень широких пределах о том, что эти системы могут сделать.»

«Платонический идеал — и мы видим, насколько мы близки — состоит в том, чтобы каждый человек на Земле собрался вместе, чтобы провести действительно вдумчивый, обдуманный разговор о том, где мы хотим провести границы в этой системе. И у нас было бы что-то вроде Конституционный съезд США, где мы обсуждаем вопросы, и мы смотрим на вещи с разных точек зрения, и говорим, ну, это было бы хорошо в вакууме, но здесь нужна проверка… И тогда мы соглашаемся, например, здесь являются общими правилами системы.»

«И это был демократический процесс, никто из нас не получил именно то, что хотел, но мы получили то, что нам достаточно нравится. А затем мы и другие строители строим систему, в которой это заложено. различные учреждения, могут иметь разные версии. Таким образом, существуют разные правила, скажем, в отношении свободы слова в разных странах. И тогда разные пользователи хотят очень разных вещей. И это может быть в рамках того, что возможно в их стране. Так что мы пытаясь выяснить, как облегчить… Очевидно, что этот процесс непрактичен, как было сказано, но к чему мы можем приблизиться?»

«Я думаю, что сообщество ИИ занимается… . Иногда бывает немного ловко, когда люди говорят о согласовании ИИ с человеческими предпочтениями и ценностями.ценности и предпочтения, которые я одобряю. Верно? И справляться с этим напряжением, когда кто-то решает, каковы настоящие ограничения. Как нам создать технологию, которая будет иметь огромное влияние, быть сверхмощной, и найти правильный баланс между тем, чтобы позволить людям иметь ИИ, которого они хотят, что оскорбит многих других людей, и это хорошо, но все же нарисуйте линии, которые, как мы все согласны, должны быть где-то проведены.»

«Мы говорили о выпуске базовой модели, по крайней мере, для исследователей или кого-то еще, но ее не очень легко использовать. Все такие: «Дайте мне базовую модель!» И опять же, мы могли бы сделать это. Но я думаю, что люди больше всего хотят, чтобы модель была RLHF, соответствующей мировоззрению, которое они поддерживают. На самом деле речь идет о регулировании другихнародная речь. Например, в дебатах о том, что появилось в ленте Facebook, выслушав множество людей, говорящих об этом, все такие: «Ну, неважно, что в моей ленте, потому что я не буду радикализирован, Я могу справиться с чем угодно. Но я действительно беспокоюсь о том, что Facebook показывает вам!'»

«Стиль того, как GPT-4 разговаривает с вами? Это действительно важно. Вы, вероятно, хотите чего-то другого, чем то, что я хочу. Но мы оба, вероятно, хотим чего-то другого, кроме нынешнего GPT-4. И это будет очень важно даже для очень похожей на инструмент вещи.»

О том, как обучение обратной связи с людьми подвергает GPT еще большей предвзятости

«Предвзятость, которая меня больше всего беспокоит, — это предвзятость оценщиков отзывов людей. Сейчас мы пытаемся выяснить, как мы собираемся отбирать этих людей. мы будем делать разные для разных мест. У нас пока нет такой функции. Вы явно не хотите, чтобы все студенты элитных американских университетов давали вам ваши ярлыки».

«Мы пытаемся избежать пузыря группового мышления научной фантастики. Труднее избежать пузыря группового мышления ИИ, который следует за вами повсюду. Мы живем во всевозможных пузырях, 100%. Скоро я отправляюсь в кругосветное турне для пользователей. в течение месяца, чтобы просто пообщаться с нашими пользователями в разных городах. Пообщаться с людьми в очень разных контекстах. Через интернет это не работает, нужно приходить лично, садиться, ходить в бары, которые они ходить и как бы гулять по городу, как они. Вы так многому учитесь и так много выходите из пузыря. Я думаю, что мы намного лучше, чем любая другая компания в Сан-Франциско, о которой я знаю, потому что не впадаем в сумасшествие научной фантастики. . Но я уверен, что мы все еще довольно глубоко в нем.»

Об утерянном искусстве нюансов в публичных дискуссиях

«Мы постараемся добиться стандартного версия должна быть как можно более нейтральной.Но настолько нейтральной, насколько это возможно, не является нейтральной, если вам нужно сделать это снова для более чем одного человека.И поэтому здесь больше управляемости, больше контроля в руках пользователя, я думаю реальный путь вперед. А также детализированные ответы, которые смотрят на что-то с разных сторон.»

«Я надеюсь, что эти модели смогут вернуть некоторые нюансы в мир. Твиттер уничтожил некоторые из них, и, возможно, мы сможем их вернуть».

О том, полезен ли нюансированный подход когда дело доходит до таких вещей, как теории заговора

«GPT-4 имеет достаточно нюансов, чтобы помочь вам исследовать это, и относиться к вам как к взрослому в процессе.»

О том, что есть правда в этом мире постправды

«Математика верна. И происхождение COVID не является общепризнанной истиной. А еще есть вещи, которые точно не соответствуют действительности. Но между этой первой и второй вехами много разногласий. Но что вы знаете, правда ? В чем вы абсолютно уверены?»

Здесь Альтман сталкивается со сложной проблемой, с которой столкнутся все языковые модели. Что, черт возьми, правда? Мы все основываем наше понимание мира на фактах, которые мы считаем истинными и очевидными, но, возможно, правильнее будет описать истины как удобные, полезные, но упрощенно простые нарративы, описывающие ситуации, которые в действительности бесконечно сложны. Возможно, правильнее описывать факты как доказуемые события, отобранные для продвижения этих нарративов.

Короче говоря, мы ожидаем, что истина будет простой, черно-белой и безупречной. Иногда это так, более или менее, но обычно все намного сложнее и сильно окрашено нашими лежащими в основе нарративами о культуре, идентичности, взглядах и убеждениях. Это то, с чем историки боролись веками; интересно, какой процент людей, живших в то время, согласился бы с любым утверждением в книге по истории или считал бы какое-либо описание полным.

Но истина — это то, что мы ожидаем от больших языковых моделей, таких как GPT, если мы в конечном итоге он позволит ему писать большую часть текстов человечества в будущем. Таким образом, OpenAI приближается настолько, насколько это возможно, не превращая каждый ответ в научную статью, пытаясь представить детализированный и, если возможно, сбалансированный подход к сложным и противоречивым темам — в рамках практичности.

После того, как возможности просмотра веб-страниц GPT будут полностью интегрированы, кажется, что приемлемым компромиссом может быть то, что система будет добавлять в сноски все, что она пишет, с веб-ссылками, поэтому, если конкретный факт или утверждение вас не устраивает, вы можете найти, где GPT у вас возникла эта идея, и решите для себя, заслуживает ли данный источник доверия.

Но похоже, что OpenAI также предложит альтернативы людям, которые быстро устают от сухих, сбалансированных и детализированных ответов. Во имя «управляемости» вы, вероятно, сможете использовать эту технологию, чтобы еще больше укрыться в удобном коконе ваших существующих убеждений, сводя к минимуму когнитивный диссонанс и вызовы вашей точке зрения по вашим собственным явным приказам.

Или приказы вашего национального государства. Как блестяще отмечает Юваль Ной Харари в своей замечательной книге Sapiens, национальные государства работают только в том случае, если вы можете наладить массовое человеческое сотрудничество. Исторически сложилось так, что лучший способ заставить людей сотрудничать в больших количествах — это внушить им на протяжении нескольких поколений взаимосвязанную паутину лжи, которую Харари называет «общими выдумками».

Национальная идентичность — это общая фикция. Как и сами нации. Как и власть президента. Так и религия. Так же как и деньги, и банки, и законы, и нуклеарная семья, и фондовые рынки, и компании, и сообщества, и многое из того, на чем строится общество. Эти общие выдумки имеют решающее значение для выживания национальных государств, и они лежат в основе нашей способности жить вместе в пригородах, городах и сельских группах, которые намного больше, чем то, с чем наш мозг способен справиться.

Таким образом, в некотором смысле Альтман просит мир прийти к согласию относительно некоторых общих фикций, на основе которых будут определяться фундаментальные границы языковой модели GPT. А затем он предлагает национальным государствам возможность рассмотреть свои собственные основные общие выдумки и провести национальные границы ИИ, стремясь поддержать эти идеи. И как только эти ребята попробуют, вы сможете решить для себя, как пойдет ваш опыт, и какие выдумки вы считаете полезными основами для своей собственной жизни. Это головокружительная ответственность с огромными последствиями, от личного уровня до глобального.

Харари, со своей стороны, считает, что мы полностью облажались. «В начале было слово», — написал он недавно в New York Times. «Язык — это операционная система человеческой культуры. Из языка возникают мифы и законы, боги и деньги, искусство и наука, дружба и нации и компьютерный код. Новое владение языком ИИ означает, что теперь он может взламывать и манипулировать операционной системой цивилизация. Овладев языком, ИИ захватывает отмычку к цивилизации, от банковских хранилищ до святых гробниц.»

Слова объединяли и разделяли людей. Они начинали и заканчивали войны, приговаривали людей к смерти и спасали их от смертной казни. «Что значит для людей жить в мире, где большой процент историй, мелодий, образов, законов, политики и инструментов формируется нечеловеческим разумом, который знает, как со сверхчеловеческой эффективностью использовать слабости, предубеждения и пристрастия людей? человеческого разума — при этом зная, как формировать близкие отношения с людьми?» — спросил Харари.

Это отрезвляющие вещи. Альтман не питает иллюзий и надеется вовлечь как можно больше людей в обсуждение того, как OpenAI и остальная часть индустрии ИИ продвигаются вперед. «Здесь мы находимся в неизведанных водах, — сказал он Фридману. «Поговорив с умными людьми, мы поймем, что можно сделать лучше».

Источник

Нажмите, чтобы оценить статью
[Итого: 0 Среднее значение: 0]

Похожие статьи

Кнопка «Наверх»