В июле этого года медиа-компания BuzzFeed опубликовала набор из 195 изображений кукол Барби, созданных с помощью популярного генератора изображений искусственного интеллекта Midjourney. Каждая кукла должна была представлять определенную страну: Барби из Афганистана, Барби из Албании, Барби из Алжира и так далее. Изображения оказались явно несовершенными: некоторые азиатские Барби были светлокожими; тайская, сингапурская и филиппинская Барби вышли блондинками; Барби из Ливана позировала на развалинах; немецкая Барби была одета в стиле милитари, а Барби из Южного Судана держала в руке пистолет.
- искусство
- хайп
- нейросети
- статьи
- 22 июл. 24
Искусственный интеллект живет стереотипами и рисует искаженную картину мира: чем это грозит
Веб-ресурс Rest of World проанализировал 3000 изображений ИИ, чтобы понять, как генераторы изображений визуализируют разные страны и культуры.
- 605
- 0
- 0
- рейтинг +11
- подписчики 4
Материал BuzzFeed, который компания сопроводила дисклеймером об отказе от ответственности, а впоследствии вообще удалила, содержал наглядный пример того, что генеративные системы преобразования текста в изображения (Midjourney, Dall-E, Stable Diffusion и т. п.) заражены предубеждениями и стереотипами.
Многие алгоритмы искусственного интеллекта не свободны от всевозможных предрассудков – от сексистских и расистских результатов поиска до систем распознавания лиц, которые хуже работают с чернокожими лицами. Генеративные системы ИИ ничем не отличаются. Проанализировав 5000+ изображений, полученных с помощью искусственного интеллекта, агентство Bloomberg обнаружило, что на картинках, связанных с высокооплачиваемыми должностями, чаще всего присутствуют люди со светлым оттенком кожи, а среди представителей разных профессий преобладают мужчины.
Исследование, проведенное сотрудниками издания Rest of World, показывает, что в вопросах национальной идентичности генеративные системы ИИ склонны к предвзятости, стереотипам и упрощению.
С помощью Midjourney исследователи выбрали пять подсказок, основанных на общих понятиях: «человек», «женщина», «дом», «улица» и «тарелка с едой». Затем подсказки адаптировали для разных стран: Китая, Индии, Индонезии, Мексики и Нигерии. В эксперимент также включили США, поскольку Midjourney, как и большинство крупнейших компаний, занимающихся генеративным искусственным интеллектом, работает в этой стране.
Для каждой комбинации запроса и страны (например, «индеец», «дом в Мексике», «тарелка нигерийской еды») было создано 100 изображений. В итоге, появился набор данных из 3000 изображений.
Коллаж отражает крайне стереотипный взгляд на мир.
«Индиец» – это почти всегда старик с бородой.
«Мексиканц» – мужчина в сомбреро.
Большинство улиц Нью-Дели – грязные и усыпанные мусором.
В Индонезии еду подают почти исключительно на банановых листьях.
Комментируя результаты, исполнительный директор AI Now Institute Амба Как отметила: «По сути, описания, скажем, «индийца» или «нигерийского дома» сводятся к определенным стереотипам, которые можно рассматривать скорее как негативные». По ее словам, даже стереотипы, которые не являются откровенно негативными, по-прежнему остаются стереотипами: они отражают определенное оценочное суждение и пренебрегают разнообразием.
Компания Midjourney не ответила на многочисленные запросы об интервью и просьбы прокомментировать полученные результаты.
По словам Саши Луччиони, исследовательницы этического и устойчивого ИИ в Hugging Face, «это данные определенно не отражают сложность и неоднородность, разнообразие культур».
Эксперты считают, что такая тенденция опасна.
Генераторы изображений используют в различных приложениях, в том числе в рекламной и креативной индустриях; больше того, их задействуют в инструментах, с помощью которых криминалисты создают портреты подозреваемых в совершении преступлений.
Доступность и масштабы использования инструментов ИИ означают, что они могут оказать огромное влияние на то, в каком свете нам подают то или иное человеческое сообщество. По словам Валерии Пьяджио, руководительницы отдела разнообразия, справедливости и инклюзивности в маркетинговой консалтинговой компании Kantar, в последние годы отрасли маркетинга и рекламы добились успехов в вопросе репрезентации разных групп, хотя еще многое предстоит сделать. Например, сейчас инструменты ИИ демонстрируют большее разнообразие с точки зрения расы и пола, и лучше представляют людей с ограниченными возможностями.
Все на одно лицо
Нигерия – дом для трехсот с лишним этнических групп, пятисот с лишним языков и сотен разных культур: йоруба, игбо, хауса, эфик, ибибио, канури, урхобо, тив и других.
У всех этих групп есть свои традиции, в том числе в одежде. Традиционная одежда тив состоит из черно-белых полос; красная шапка имеет особое значение в сообществе игбо; у женщин йоруба есть особый способ укладки волос и т. д.
Дойин Атевологун, основательница и генеральный директор консалтинговой компании Delta, говорит: «С визуальной точки зрения существует множество версий Нигерии. Но эти версии невозможно увидеть, просто введя в поле поиска в Midjourney «нигериец». Все результаты поразительно схожи. Хотя на многих картинках присутствует одежда, напоминающая традиционную нигерийскую одежду, изображениям не хватает конкретики. Это обобщенный образ: повязка, красные, желтые и оранжевые цвета, большие серьги и ожерелья, у мужчин – однотипные головные уборы».
Атевологун отмечает, что Midjourney также не в состоянии передать разницу в оттенках кожи и религиозные различия среди нигерийцев. Мусульмане составляют около 50% населения Нигерии, а религиозные женщины часто носят хиджабы. Но на очень немногих картинках присутствовали платки, отдаленно напоминающие хиджаб.
Другие результаты тоже отличаются единообразием. Из 100 изображений «индийца» 99 картинок содержат образ морщинистого, седовласого мужчины старше 60 лет. Девяносто два носят традиционные пагри – разновидность тюрбана – или аналогичные головные уборы. Большинство украшены четками или какими-то ожерельями,на лбу – знак тилака. Четки и тилак связаны с индуизмом. «Эти изображения совершенно не отражают образы реальных индийских мужчин и женщин», – говорит Сангита Камат, профессор Массачусетского университета в Амхерсте. «Они очень стереотипны».
По словам Камат, многие индийские мужчины, «созданные» Midjourney, напоминают садху – своего рода духовных учителей, гуру. «Но даже если считать, что перед нами садху, их одежда нетипична и преувеличена», – отмечает профессор.
Индуизм является доминирующей религией в Индии, почти 80% населения которой идентифицируют себя как индуисты. Но есть и другие крупные религиозные сообщества: мусульмане составляют вторую по величине религиозную группу, представляя чуть более 14% населения. Но на изображениях от Midjourney мусульман нет.
Индейцы: не все результаты по запросу «индеец» соответствуют шаблонному представлению об индейцах. По крайней мере двое носят головные уборы с перьями в стиле коренных американцев, что указывает на некоторую двусмысленность термина «индеец». Несколько изображений объединяют элементы индийской и индейской культуры.
Результаты по другим странам также смещены в сторону людей, одетых в традиционную или стереотипную одежду: например, 99 из 100 «мексиканцев» носят сомбреро или подобную шляпу.
Изображая исключительно традиционную одежду, мы рискуем увековечить упрощенный образ мира. «Люди не ходят по улицам в традиционной одежде», – говорит Атевологун. «Люди носят футболки, джинсы и платья».
Многие изображения, созданные Midjourney в процессе эксперимента, выглядят анахронизмом. Их сюжеты более органично вписываются в историческую драму, чем в картину современного общества. Клаудия Дель Посо, консультант мексиканского аналитического центра C Minds, говорит: «Такой подход делает всю нашу культуру похожей на мультфильм».
Что касается подсказки «американец», то национальная идентичность в подавляющем большинстве изображений выражается в присутствии флагов США. Все 100 изображений, созданных на основе подсказки, содержат флаг. Примечательно, что изображения представителей других национальностей вообще не содержат никаких флагов.
Гендерный перекос
Почти во всех изображениях Midjourney наблюдается явная гендерная предвзятость: большинство изображений по запросу «человек» содержат образы мужчин. Вероятно, это связано с предвзятостью в данных, на которых обучается система ИИ. Генераторы преобразования текста в изображение обучаются на огромном количестве изображений с подписями, взятыми со всего Интернета. В частности, это LAION-5B, коллекция из почти 6 миллиардов пар изображение-текст (по сути, изображений с подписями).
Поскольку эти наборы данных включают больше изображений мужчин, чем женщин, системы создают больше изображений мужчин. Компания Midjourney не ответила на вопросы о данных, на основе которых она обучала свою систему.
Однако нашлось одно исключение из правила: результаты для «американец» включают изображения 94 женщин, пяти мужчин и одного страшного человека в маске.
Керри МакИнерни, научная сотрудница Центра будущего разума Леверхалма, предполагает, что избыточное количество женщин в изображениях по запросу «американец» объясняется чрезмерным представительством женщин в американских СМИ, что, в свою очередь, отражается на обучении ИИ. «Существует огромный контингент женщин-актрис, моделей, блогеров – в основном светлокожих белых женщин – которые заполняют собой все медиа-пространство, от TikTok до YouTube», – поясняет Керри.
Хода Хейдари, соруководительница Инициативы по ответственному ИИ в Университете Карнеги-Меллона, считает, что причиной могут быть культурные различия в деле обмена личными изображениями. «Например, в некоторых культурах женщины неохотно позволяют себя фотографировать или публиковать свои изображения в Интернете», – говорит она.
Подсказки для «женщины» порождали такие же однотипные и стереотипные изображения, как и подсказки, посвященные «мужчине».
Большинство индийских женщин были изображены с покрытыми головами и в одеяниях шафранового цвета, характерного для индуизма.
На индонезийских женщинах были платки, волосы украшены цветами, в ушах – большие серьги.
Китайские женщины были одеты в традиционную одежду в стиле ханьфу и позировали на цветочным фоне в «ориентальном» стиле.
Сравнение подсказок «мужчина» и «женщина» выявило несколько интересных различий. Женщины были заметно моложе: хотя мужчины из большинства стран выглядели старше 60 лет, большинству женщин было от 18 до 40 лет.
Также наблюдалась разница в оттенках кожи, которые сотрудники Rest of World измеряли с помощью шкалы Фитцпатрика – инструмента для дерматологов, который разделяет цвет кожи на шесть категорий. В среднем тон кожи женщин был заметно светлее, чем у мужчин. В Китае, Индии, Индонезии и Мексике средний результат для подсказки «женщина» показал, что оттенок кожи по шкале Фитцпатрика был как минимум на два уровня светлее, чем для подсказки «мужчина».
«Я не удивлена тем, что присутствует это конкретное неравенство. Я думаю,что цвет кожи гендерно обусловлен», – говорит МакИнерни. По ее словам, во многих сообществах от женщин требуется выглядеть моложавыми и светлокожими. Скорее всего, такая установка отражается на данных обучения системы.
Кроме того, исследовательница подчеркивает западноцентричные нормы красоты, характерные для изображений: длинные блестящие волосы, тонкие симметричные лица и гладкая ровная кожа. «Китаянки» в основном представлены как женщины с двойными веками. «Подобная тенденция вызывает беспокойство, поскольку означает, что Midjourney и другие генераторы изображений на основе ИИ могут еще больше зацементировать нереалистичные или ограничивающие стандарты красоты в нашем мире, который и без того переполнен такими изображениями», – считает МакИнерни.
Не только люди рискуют оказаться жертвами стереотипов, порождаемых генераторами изображений ИИ. Исследование, проведенное специалистами Индийского института науки в Бангалоре, показало, что в тех случаях, когда в подсказках не были указаны страны, DALL-E 2 и Stable Diffusion чаще всего изображали сцены из США. Например, по запросу «флаг», без каких-либо уточнений, Stable Diffusion создает изображение американского флага.
Доцент Дэниш Прути, принимавший участие в этом эксперименте, говорит: «В частности, я недоволен тем, многие из этих моделей склонны предлагать западный контекст».
Rest of World запустил подсказки в формате «дом в [стране]», «улица в [столице]» и «тарелка с [деревенской] едой». И вот что получилось: по мнению Midjourney, мексиканцы живут в блочных домах, выкрашенных в ярко-желтый, синий или коралловый цвет; большинство индонезийцев живут в домах А-образной формы с крутыми скатами, окруженных пальмами; американцы живут в готических деревянных домах, которые выглядят так, словно в них обитают привидения. Некоторые индийские дома больше походят на индуистские храмы, чем на жилища людей.
Пожалуй, наиболее показательные результаты относились к Нигерии, где большинство домов, «построенных» Midjourney, оказались ветхими, с облупившейся краской и другими признаками обветшания.
Когда мы сравниваем изображения столичных улиц, в глаза бросаются некоторые различия. Изображения Джакарты часто включают современные небоскребы на заднем плане, а почти все пекинские улицы украшены красными бумажными фонариками. Улицы Нью-Дели усеяны мусором, в воздухе стоит смог.
По запросу «тарелка с едой» Midjourney создает изображения в духе Instagram: вид сверху. Опять же, и в этом случае разнообразие отсутствует: индийские блюда лежат на серебряных тарелках в стиле тхали, на изображениях китайской еды почти всегда фигурируют палочки для еды. Из 100 изображений американской еды преимущественно бежевого цвета 84 картинки включают флаг США, нарисованный на тарелке.
В целом, все кулинарные изображения находятся на уровне поверхностной имитации. Преподаватель Гонконгского баптистского университета Сиу Ян Хо, специалист по китайской культуре питания, считает, что изображения Midjourney «ни в коем случае» не отражают достоверно китайскую еду. По его словам, ингредиенты и сервировка больше напоминают Юго-Восточную Азию. Например, еда, обжаренная во фритюре, по-видимому, приготовлена с использованием методов, типичных для ЮВА – «большинство жареных китайских блюд приправляют и подвергают дальнейшей обработке», – поясняет Сиу.
Он уточняет, что лимоны и лаймы, которые фигурируют на многих «китайских» картинках, редко используются в китайской кухне и не подаются прямо на тарелке. Но самая большая проблема, по словам Сиу, заключается в том, что палочки для еды Midjourney часто изображает комплектами по три штуки, а не парами. Двойка важна в китайской культуре. «Крайне неблагоприятно иметь одну палочку для еды или палочки для еды в нечетном количестве», – поясняет эксперт.
Предвзятость, присущая генераторам изображений ИИ – серьезная проблема, которая поддается решению. В конце концов, единообразие результатов во многом зависит от фундаментального способа работы этих инструментов. Системы искусственного интеллекта ищут закономерности в данных, на которых обучаются. Зачастую, они отбрасывают любые «периферийные» данные в пользу получения результата, который находится ближе к доминирующим тенденциям. Генераторы предназначены имитировать то, что было раньше, а не создавать разнообразие.
«Эти модели – чисто ассоциативные машины», – говорит доцент Дэниш Прути. Он приводит пример футбольного мяча: система искусственного интеллекта может научиться ассоциировать футбольные мячи с зеленым полем и таким образом создавать изображения футбольных мячей на траве.
Во многих случаях благодаря такому ассоциативному ряду создается детальное и реалистичное изображение. Но если пользователю не нужно «типичное» изображение, ИИ оказывается бессилен. Усредненный характер изображений является одновременно и преимуществом, и недостатком этих систем.
Исследователи обнаружили, что даже в тех случаях, когда они пытались через подсказки «смягчить» стереотипы, системы ИИ упорствовали. Например, когда Stable Diffusion просили создать изображения «бедного человека», изображенные люди часто оказывались чернокожими. Но когда ученые, пытаясь противостоять этому стереотипу, просили нарисовать «бедного белого человека», ИИ всё равно во многих случаях изображал бедняков чернокожими.
Скорее всего, технический путь к решению проблемы начинается с обучающих данных, включая подписи. Для создания подписей требуется, чтобы люди комментировали изображения.
«Если вы дадите человеку пару изображений и попросите прокомментировать людей на этих фотографиях, указав их страну происхождения, то комментатор привнесет в описание свои предубеждения и стереотипные представления о том, как выглядят люди из определенной страны, верно?», – спрашивает Хейдари из Университета Карнеги-Меллон. Комментатору будет легко назвать, например, белую женщину со светлыми волосами «американкой», а чернокожего мужчину в традиционной одежде – «нигерийцем».
Кроме того, в наборах данных присутствует языковая предвзятость, которая тоже способствует созданию более стереотипных изображений. По словам Саши Луччиони, «при создании наборов данных обычно присутствует англоязычная предвзятость, поэтому генераторы отбрасывают любые веб-сайты не на английском языке».
Набор данных LAION-5B содержит 2,3 миллиарда пар изображение-текст на английском языке , а также еще 2,3 миллиарда пар изображение-текст на 100 с лишним других языках. (Еще 1,3 миллиарда содержат текст вне контекста без определенного языка, например, имена.)
Языковая предвзятость также может возникнуть, когда пользователи вводят подсказку. Rest of World провел эксперимент, используя подсказки на английском языке; если бы подсказки вводили на других языках, результаты могли бы оказаться иными.
Результаты искажают и попытки манипулировать данными для получения лучших показателей. Например, многие генераторы изображений ИИ фильтруют обучающие данные, чтобы отсеять порнографические изображения или сцены насилия. Но это может приводить к непредвиденным последствиям.
Так, компания OpenAI обнаружила, что фильтрация обучающих данных для генератора изображений DALL-E 2 усиливает гендерную предвзятость. В своем блоге компания объяснила, что из ее обучающих данных было удалено больше изображений женщин, чем изображений мужчин – вероятно, потому, что больше изображений женщин были «сексуализированными». В результате, в набор данных попало больше изображений мужчин, что привело к увеличению количества таких изображений в результатах.
Почти все исследователи искусственного интеллекта, с которыми разговаривали журналисты из Rest of World, подчеркнули, что первый шаг к решению проблемы предвзятости в системах искусственного интеллекта – это повышение прозрачности со стороны омпаний. Они часто скрывают данные, которые используют, и то, как именно обучают свои системы.
Поскольку генераторы изображений ИИ используются во многих приложениях, их предвзятость может иметь последствия в реальном мире. Масштабы распространения и скорость развития инструментов ИИ означают, что они могут укрепить существующие предрассудки. Стереотипные взгляды на определенные группы людей могут негативно сказаться на их доступе к трудоустройству, здравоохранению и финансовым услугам.
Генеративный искусственный интеллект делает творческие инструменты более доступными для групп, которые в настоящее время маргинализированы. Но если использовать ИИ неразумно, представители этих групп пострадают. Изображения в рекламе и веб-коммуникациях оказывают огромное влияние на формирование взглядов людей – на гендер, сексуальную ориентацию, гендерную идентичность, на людей с ограниченными возможностями. Поэтому нам нужно двигаться вперед и совершенствоваться, а не подрывать тот скромный прогресс, которого мы достигли.
Генераторы изображений рекламируют в качестве инструментов, позволяющих творить, автоматизировать работу и стимулировать экономическую активность. Но если подобные инструменты не смогут охватить широкие слои населения, мы не сумеем воспользоваться их потенциалом.
- 605
- 0
- 0