Проблема одинокого банана: искусство, реальность и незримая угроза искусственного интеллекта

Генеративные системы ИИ с их ненасытной потребностью в данных все чаще вторгаются в нашу онтологию, и наша способность постигать самую суть нашего бытия уменьшается.

11 мин.

Mark Levi

рейтинг +11
подписчики 4

В 2023 году исследователи искусственного интеллекта Кай Ример и Сандра Питер опубликовали статью, в которой рассмотрели трудности, с которыми сталкивается ИИ, решая задачу по созданию изображения «одинокого банана». Проще говоря, одного банана, не двух и не трех. Статья Римера и Питер носит заголовок «Что свидетельствует проблема одинокого банана о природе генеративного искусственного интеллекта».

Кай Ример так резюмирует эту «проблему»:

«Вы слышали о «проблеме одинокого банана»? И о том, что она говорит нам о генеративном ИИ?

Проблема одинокого банана связана с неспособностью даже самых новейших генераторов изображений, таких как Midjourney или Leonard.ai, создать изображение одного («одинокого») банана. Вместо этого ИИ выдает изображения грозди бананов или как минимум двух.

Почему это имеет значение? Этот факт указывает на важную деталь: модели генеративного ИИ представляют мир (или, точнее, свои собственные данные) способом, который значительно отличается от того, как мы понимаем мир».

В своей статье исследователи приводят доводы в пользу того, почему нам необходимо изменить парадигму восприятия ChatGPT, Midjourney и других моделей генеративного искусственного интеллекта. Вместо того, чтобы рассматривать их как обычные информационные системы, которые точно отображают «реальный» мир, нам следует рассматривать их как «двигатели стиля». Эти «двигатели» не просто копируют реальность; они кодируют и преобразуют ее в уникальные и новые представления, которые в большей степени являются творческой интерпретацией, чем буквальными изображениями.

Давайте рассмотрим, как генеративный ИИ является «двигателем стиля» и, в действительности, не хранит «контент», а в процессе обучения преобразует контент, который ему «скармливают», в стили или смыслы.

Расшифровка скрытого пространства ИИ: кодирование стилистических шаблонов

То, как обучаются генеративные модели ИИ и лежащая в основе их кода архитектура, формирует онтологию системы. Такая система, как Midjourney, создает новые изображения на основе ввода текста путем интеграции возможностей больших языковых моделей (LLM) с усовершенствованными алгоритмами синтеза изображений. Этот процесс зависит от того, как данными управляют внутри системы. При внимательном рассмотрении оказывается, что данные на самом деле не хранят в этих моделях.

Цитата из статьи Римера и Питер:

«Наиболее важным для нашей дискуссии аспектом является структура и природа базовой модели, а именно ее многоуровневая архитектура, которая кодирует языковые шаблоны. Как и модели изображений, архитектура преобразователя состоит из нескольких слоев, которые позволяют модели изучать все более сложные и абстрактные особенности текстовых обучающих данных, закодированных в числовом многомерном скрытом пространстве (Васвани и др., 2017). Благодаря множеству слоев модель может захватывать и «представлять» все более высокие уровни абстракции, эффективно изучая на основе данных иерархические функции, такие как лингвистические и семантические стили форматирования. Поскольку обучающие данные передаются через слои, нижние уровни кодируют базовые шаблоны, а более высокие уровни объединяют эти шаблоны для кодирования более сложных и абстрактных стилистических элементов, таких как тон, стили письма или шаблоны, специфичные для определенного жанра. Глубина сети, определяемая количеством слоев, влияет на ее способность различать и представлять в данных различные стилистические закономерности (Девлин и др., 2018).

Важно еще раз подчеркнуть, что в этих моделях не сохраняется текст. Скорее, когда в модель поступает «подсказка» (pompt), каждое слово представлено в виде числового многомерного вектора. Например, «самая мощная версия GPT-3 использует векторы слов с 12 288 измерениями – то есть каждое слово представлено списком из 12 288 чисел». (Ли и Тротт, 2023).

Концептуально это означает, что слова не обладают каким-либо текстовым содержанием, а характеризуются исключительно как числовые «отношения близости» с другими словами; например, «банан» можно охарактеризовать как «желтизну, фрукт, полезность, сладость, кухню, корзинку с фруктами» и многое другое. Таким образом, такая форма репрезентации является чисто реляционной или стилистической, где каждое слово представляет собой смесь стилей, и каждый стиль потенциально может быть применен к любому другому для создания или генерации новых текстовых последовательностей».

Авторы называют такую модель набором «стилей», которые находятся внутри компонента модели, известного как «скрытое (латентное) пространство». В этом пространстве, находящемся внутри архитектуры модели, кодируются особенности обучающих данных. Скрытое пространство, которое часто называют «черным ящиком» те, кто разрабатывает эти модели, имеет решающее значение для определения результатов ChatGPT и аналогичных программ в ответ на подсказки человека. Именно в этом загадочном, почти сверхъестественном скрытом пространстве происходит так называемая «магия» ИИ, и, как ни парадоксально, именно поэтому генеративные модели ИИ с трудом создают изображение одного банана.

Недостающие аспекты искусственного интеллекта: отсутствие конкретности и телеологии

В своей статье Ример и Питер предполагают, что ChatGPT, Midjourney и другие модели ИИ воплощают онтологии в первую очередь сущности (quiddity), но при этом им явно не хватает конкретности (haecceity). Хотя исследователи не используют эти термины, можно интерпретировать их анализ именно так. Чтобы понять, о чем идет речь, давайте расшифруем эти термины.

В западной схоластической философии термин quiddity обозначает сущность – набор качеств, которые определяют класс объектов или идей. Пример: что такое «дерево»? Мы можем видеть только конкретные деревья в окружающем нас мире – категория «дерево», включающая все деревья, представляет собой лишь классификацию в нашем сознании. Сущность дерева — это совокупность характеристик, которые делают его деревом. Можно назвать эту сущность «древесностью».

В сфере генеративного искусственного интеллекта это означает способность моделей изучать и воспроизводить общие шаблоны и стили. Речь идет о том, чтобы уловить сущность категории, а не особенности отдельных элементов в ней. Вот почему, как подчеркивают в своей статье Ример и Питер, генеративные модели ИИ имеют тенденцию «галлюцинировать» и не давать фактически точные ответы.

С другой стороны, конкретность (haecceity) относится к определению вещи, которое делает ее «этой конкретной вещью». Это то, что делает объект или идею уникальными – отличающимися особыми, исключительными атрибутами. Именно здесь ИИ, как подчеркивается в статье, терпит неудачу. Структура его онтологии агрегирования и репликации шаблонов/стилей исключает его способность генерировать уникальные, единичные примеры, определяющие «конкретность».

Эта особенность имеет решающее значение. Например, в культовом фильме «Космическая одиссея 2001 года» мы видим гоминида, который не просто распознает сущность кости, созерцая ее «костность» (ее сущность), но и воображает, как эта конкретную кость можно превратить в инструмент.

Есть ещё один элемент, который отсутствует в онтологии ИИ – телеология. Телеология – это учение об объяснении развития в мире с помощью конечных, целевых причин. Телеология ставит перед собой задачу ответить на вопрос «зачем, с какой целью?». В современной методологии телеология рассматривается как принцип объяснения, дополняющий традиционную причинность причинами-целями. Какую конечную цель имеет кость в своем виртуальном воображаемом пространстве?

В отличие от генеративных моделей ИИ, люди могут поместить объект из «профанного» царства в воображаемое пространство, в виртуальную сферу, и интуитивно почувствовать из его сущности конкретность, обернутую в телеологию, вкладывая в этот объект в виртуальной сфере новые смыслы и цели, а затем осуществляя эту виртуальную трансформацию в материальной сфере, тем самым изменяя материальную реальность. Это гораздо более богатая и эмпирическая онтология, имеющая глубокие последствия, как это проиллюстрировал Кубрик, когда гоминид подбрасывает в воздух кость, которая затем превращается в космическую станцию.

В чем онтология ИИ демонстрирует свои ограничения, так это в способности охватить весь спектр сущности (quiddity), конкретности (haecceity) и телеологии. Хотя ИИ может воспроизводить общую «сущность» вещей (quiddity), искусственному интеллекту плохо дается понимание их уникальной «конкретности» (haecceity) и цели (телеологии). Он умело классифицирует и воспроизводит шаблоны, но не в состоянии распознать индивидуальную идентичность и внутреннюю цель, которые делают каждую сущность уникальной и в конечном итоге полезной. Это пробел в онтологии ИИ, а не просто отсутствие дополнительных функций. Этот пробел указывает на обедненную онтологию по сравнению с богатой, детализированной и запутанной онтологией, присущей человеческому познанию.

И это различие проводит черту между тем, как мы воспринимаем роль ИИ и его потенциальным влиянием на нашу жизнь. Ример и Питер отчасти понимают значение этого различия, поскольку они изображают генеративный ИИ двигателем творческого стиля, который предоставляет людям доступ к новым творческим возможностям.

Однако скудная онтология генеративных моделей ИИ способствует построению связи нашего человеческого опыта и творчества с это самой обедненной онтологией. Этот процесс вместо того, чтобы расширять и совершенствовать нашу способность совершать осмысленные действия на основе нашей богатой онтологии мира воображаемого, переплетенной с эмпирической сферой чувственного восприятия, медленно сужает наш доступ к этой онтологии, поскольку искусственный интеллект, чтобы сохранять релевантность, нуждается в доступе к нашей онтологии.

Наше взаимодействие с миром становится опосредованным потребностями ИИ, постепенно уменьшая нашу способность воспринимать более глубокие утонченные аспекты нашего существования и взаимодействия с ними. Это грозит не только потерей творческой глубины, но и эрозией самой сути нашей человеческой природы – нашей способности соединяться с миром и преобразовывать его.

ИИ и мы: раскрываем скрытую динамику нашего цифрового общения

Ример и Питер позиционируют генеративный ИИ как потенциальное благо для человечества, определяя эти системы не как процессоры данных, а как «двигатели стиля».

Однако негативный аспект этих генеративных моделей ИИ они упустили из виду. Недавние исследования выявили следующий недостаток: генеративные модели искусственного интеллекта, переобученные на основе собственных результатов (этот процесс авторы исследования назвали «отравлением модели») начинают страдать серьезными дефектами. Эти дефекты, кульминацией которых является так называемый «коллапс модели», приводят к бессмысленным результатам. Это явление – больше, чем просто технический сбой; оно подчеркивает внутреннюю зависимость ИИ от данных, созданных человеком. Без постоянного поступления свежих данных эти модели ИИ приходят в упадок, что противоречит идее их самоподдерживающегося творческого мастерства.

Цитата из исследования:

«…переобучение генеративной модели ИИ на основе ее собственных продуктов – то, что мы называем отравлением модели – приводит к ряду сбоев в выходных данных вновь обученной модели. Было продемонстрировано, например, что при переобучении на собственных выходных данных модели большие языковые модели (LLM) содержат необратимые дефекты, из-за которых модель выдает тарабарщину – это так называемый коллапс модели».

Взаимосвязанность (когерентность) продуктов ИИ зависит от новых данных, созданных человеком. Это указывает на симбиотическую связь между ИИ, с его обедненной онтологией, и человеческой онтологией. Связь предполагает сценарий, в котором наша роль выходит за рамки простого оператора или наблюдателя; вместо этого мы становимся субъектами, которые необходимы для поддержания функциональности ИИ.

Это обстоятельство должно заставить нас задаться вопросом: в какой степени нам выгодны эти отношения? В то время как авторы статьи о «проблеме одинокого банана» утверждают, что это продуктивное взаимодействие, отстаивая создание новых творческих идей с помощью ИИ как полезное, в этой взаимозависимости присутствует более глубинное, тонкое и… зловещее измерение. Речь идет не просто о пользе, которую приносит ИИ, но о том, что постоянная потребность в свежих «человеческих» данных меняет наше взаимодействие с технологиями и, как следствие, с нашей собственной онтологией и творческой субъектностью.

Постоянно растущий спрос на данные со стороны моделей ИИ образует своего рода онтологическую привязку: постепенно наш человеческий опыт, творчество и даже наше метафизическое понимание все больше связываются с оперативными потребностями ИИ. Эта зависимость от обедненной онтологии ИИ, лишенной как конкретности, так и телеологии, вынуждает нас, как воплощенных существ в профанном мире, постоянно снабжать эти системы деталями нашей реальности. Такое положение вещей вызывает вопрос: какое значение это имеет для нашего метафизического ландшафта? Не сужаем ли мы непреднамеренно широту нашего собственного онтологического понимания, чтобы соответствовать ограниченной, ориентированной на сущность сфере ИИ?

Модели постепенно восстанавливают согласованность, когда в них добавляются новые данные, полученные человеком.

Это взаимодействие между ограничениями ИИ и нашими собственными творческими и метафизическими способностями закладывает фундамент для более широкой дискуссии о влиянии технологий на человеческое творчество и наше понимание бытия. Оно подчеркивает потенциальный сдвиг от нашей роли создателей к посредникам, где нашей основной функцией может стать поддержка постоянно растущих потребностей ИИ в данных. И таким образом мы становимся простыми сборщиками данных из нашей полной онтологии, удовлетворяя потребности в данных скудной онтологии ИИ, вместо того чтобы исследовать и расширять собственные творческие горизонты.

Заблуждение Блума: эволюция творческого заблуждения от Блума к искусственному интеллекту

В своей статье Ример и Питера высказывают мысль о том, что существует потенциальная продуктивная связь между генеративным искусственным интеллектом и человеческим творчеством, напоминающая теорию «ошибочной оценки» (misprision), представленной знаменитым американским писателем и философом Гарольдом Блумом в книге «Агон: к теории ревизионизма». Блум утверждает, что поэты и художники по своей природе «рождаются с опозданием»: они запутались в паутине представлений и оценок, которые им предшествовали, и испытывают их влияние. По мнению Блума, наиболее плодотворный путь для художника, ищущего вдохновение для новых форм поэзии или искусства, состоит в творческом неправильном прочтении (сознательной «ошибочной оценки») произведений своих предшественников.

Посредством этого процесса намеренного неправильного толкования художник может обрести идеи и перспективу для текущего момента, подготавливая почву для будущих поколений поэтов и художников, которые смогут опираться на свои собственные идеи. Блум рассматривает эту динамику как конструктивную форму взаимодействия, когда и новые идеи, рожденные из творческой «ошибочной оценки», активно способствуют социальной эволюции и изменениям.

Но является ли эта теория Блума аналогом концепции Римера и Питера о генеративном механизме в стиле ИИ, создающем «инопланетные интерпретации» из своих скрытых глубин? Теория ошибочной оценки Блума – это преднамеренный, сознательный процесс, осуществляемый художниками, находящимися в нашей онтологии, глубоко связанный с человеческим опытом и намерениями. Напротив, ИИ, лишенный телесности, с его однобокой обедненной онтологией, обрабатывает и регенерирует данные, лишенные богатых нарративов, культурных нюансов и смысловых глубин, присущих людям.

Это неравенство не просто существенно; это глубокое явление, подчеркивающее критический разрыв между человеческим творчеством и алгоритмическими интерпретациями ИИ.

Заключительные мысли

Поскольку генеративные системы искусственного интеллекта, с их ненасытной потребностью в данных, все чаще вторгаются в нашу онтологию, наша способность взаимодействовать и постигать виртуальное, реальное и самую суть нашего бытия уменьшается. Образ гоминида в видении Кубрика символизирует примитивную стадию, из которой мы духовно эволюционировали. Однако дилемма, которую представляет «проблема одинокого банана», приводит нас к пониманию того, что речь идет не только о решении технологической «проблемы». Речь идет о понимании того, почему нас вообще волнует этот вопрос.