Обесценивание информации

Специальный корреспондент
Собака

Собака

Пресс-служба
Команда форума
Private Club
Регистрация
13/10/15
Сообщения
54.809
Репутация
62.390
Реакции
277.002
RUB
0
73f007d2e2ce62b67f115c5a35cda90f.png

Последние месяцы новости о применении генеративных нейросетей выходят по несколько штук в день. Но мнения о нейросетях кардинально расходятся даже у известных профессионалов в этой области. Франсуа Шолле еще в 2019 писал о третьей зиме искусственного интеллекта, как и MMC Ventures в своих . Илон Маск писал о неминуемой технологической сингулярности, которая может случиться . Питер Тиль наоборот предлагает использовать LLM для . А известный исследователь ИИ и автор книги «Гарри Поттер и методы рационального мышления» Элиезер Юдковский, словно глашатай Судного дня, призывает бомбить несанкционированные датацентры .
Фантасты и футурологи прошлого века мечтали, что роботы возьмут на себя всю грязную и тяжёлую работу, оставив людям творчество. Но теперь сформулированный еще в 80-е годы полностью подтвердился: началось наступление на творческие профессии. Художники, писатели, актёры, певцы, дизайнеры, программисты, управленцы, переводчики, рекрутеры могут быть заменены искусственным интеллектом.
Нейросети уже создают немыслимое количество контента. Положительные области применения нейросетей задвинуты в угол (например, преобразование информации из одного домена в другой: перевод текста, распознавание текста на изображениях, преобразование текста в речь или же речи в текст). А свидетели искусственного интеллекта уже стучат в вашу дверь. Ситуацию, в которой мы все оказались, хотелось бы рассмотреть поближе.

Да кто такой этот ваш ChatGPT?​

Начнём с общего (не)понимания контекста. Наше представление об ИИ в основном сформировано исследованиями советской школы. Под искусственным интеллектом понимается именно полноценно мыслящий интеллект. В американской школе AI — это программа, которая может выполнять одну из функций человека. Например, читать или смотреть. Мыслящий ИИ в США называется AGI — искусственный интеллект общего назначения. Откровенно говоря, человечеству до него исследований и разработок.

ChatGPT:​

1. Generative Pretrained Transformers (GPT) — трансформеры, особая архитектура нейросети, которая может обучаться на сверхбольших неразмеченных данных для генерации текстов. Модель учится максимально хорошо предсказывать следующее слово в предложении (но не более того).
2. Reinforcement Learning from Human Feedback (RLHF) — обучение с подкреплением на основе пользовательской обратной связи. Обучение с подкреплением — это самая понятная концепция: мы назначаем нейросети «награду» за правильный результат и «наказание» за неправильный. Таким способом модель обучается выполнять правильные действия. В случае ChatGPT размер награды назначает человек, отмечая, насколько текст кажется ему правильным.
Из описания архитектуры и можно выделить следующие вещи:
  • нейросеть обучается на сверхбольшом корпусе текстов;
  • учится выдавать некий усреднённый ответ, исходя из изученных данных, добавляя к результату немного энтропии.
Причём сеть обучена так, чтобы текст казался правильным и нравился человеку с субъективным восприятием прочитанного. На выходе получается красивый и грамматически выверенный усреднённый ответ. OpenAI утверждает, что по специфическим темам модель обучали профильные специалисты. Хотя основной корпус ответов обрабатывали с зарплатой 2$ в час.

Midjourney / Stable Diffusion:​

1. Diffusion Model — модель вначале смотрит, как исходные изображения превращаются в шум, а затем учится восстанавливать изображения из гауссовского шума. Если провести эту операцию много раз с текстовыми подсказками, то модель научится восстанавливать усреднённое изображение, соответствующее конкретному текстовому описанию.
2. Contrastive Language-Image Pre-Training (CLIP) — нейросеть, которая обучена связывать между собой изображение и текстовое описание, чтобы по текстовому описанию можно было найти максимально близкое изображение.
И опять нейросеть создаёт некое усреднённое изображение по текстовому описанию. Сеть обучается усреднению на сверхбольшом наборе доступных в интернете работ популярных художников. Связь между изображением и описанием создаётся людьми с субъективным восприятием увиденного.
Всё это сильно напоминает знаменитую « », это неплохо и даже полезно. Но у всего есть границы применимости, выход за которые даёт абсолютно непредсказуемый результат. Нейросеть обучалась давать пользователям не правильный, а приятный ответ, и .

Информация​

Люди хотят получать не просто информацию, а новую информацию. Заходя в интернет-магазин, они хотят узнать информацию о конкретных ботинках, а не об усреднённо-абстрактных: почитать о материале подошвы, посмотреть фото. Остальной текст служит для связи информации между собой. И когда информации вокруг становится слишком много, люди хотят получать максимально сжатые сведения.
В теории информации чётко разделяют данные и информацию. Например, определяет информацию как «уменьшение неопределённости знаний». Иначе говоря, насколько полученные данные являются новыми для субъекта.
Согласно этому, средние данные — это если прочитал описание ботинок, сгенерированное нейросетью, то прочитал все такие описания. Если посмотрел достаточно изображений, нарисованных нейросетью, то видел их все. Интерес вызывает только нечто новое, привнесённое человеком. Но нейросети генерируют данные очень быстро, тысячи и десятки тысяч изображений в секунду, в которых информация, привнесённая человеком, крайне мала. Повсеместное внедрение генеративных нейросетей ведёт к стремительному обесцениванию информации. Никто не прочитает описания товаров, если 95% из них будут написаны нейросетью. К изображениям, нарисованным нейросетью, будут относиться, как к стоковым картинкам из фотобанка. Все будут вставлять их потому, что так написано в правилах дизайна, но никто из пользователей не будет на них смотреть. Книги, написанные нейросетями, . Дополнительно это будет усугубляться информационным шумом и галлюцинациями нейросетей. Очень сложно будет понять, насколько правдив прочитанный текст.
Но корпорации это не останавливает, как не остановили жалобы клиентов на ранние чат-боты, поставленные на замену первой линии техподдержки. Уже лавиной хлынули сообщения о применении нейросетей для «автоматизации» работы:
Microsoft внедряет ChatGPT в для повышения «вовлечённости» сотрудников. Генерируя фактически бесполезные задания вместо настоящей работы. Геймификация на новый лад: «подключите 5 новых клиентов», «ответьте на 5 электронных писем», «изучите корпоративный регламент».
Компания «Подбор» собирается рассылать своим соискателям работы . Британская Octopus Energy ChatGPT для общения с клиентами через электронную почту. Обе компании результат оценивают положительно. Клиенты остались довольны, потому что нейросеть натренирована писать тексты, которые нравятся(!) людям.
«Fix Price» собирается генерировать . Маркетологи генерировать карточки товаров и описания к ним на OZON и Wildberries. В обоих случаях полезную информацию вносит человек, прося нейросеть учесть её при генерации. То есть нейросеть генерирует заполнитель между важной информацией, заваливая клиентов бесполезными словами и картинками.
DoccGTP — , что уже на грани. Смысл комментариев в коде — указание на важную и неявную особенность. Нет документировать каждую строчку, размывая внимание разработчика.
Robusta смотрит на ошибки в системе логирования и . Знания нейросети ограничены 2021 годом, и она не сможет подстраиваться под стремительно переписываемый Kubernetes. Вполне вероятно, что ситуацию спасёт для доступа в интернет. Но и тогда нейросеть будет просто гуглить за сотрудника и пересказывать чужие и, возможно, ошибочные рекомендации своими словами с шансом галлюцинации.
Spotify удалила десятки тысяч треков, , из-за накрутки прослушиваний ботами для получения денежного вознаграждения. Как в этом хаосе из сгенерированной бессмыслицы пробиться начинающему таланту?
BuzzFeed 180 человек на ChatGPT для написания новостей. А главный редактор РБК только . Для читателей нет ничего лучше новостей, разбавленных водой от галлюцинирующих нейросетей.

Дипфейки​

Дипфейки можно отнести к отдельной категории информационного шума. и манеры речи, уже может наделать немало шуму, многократно искажая исходное послание. Современные нейросети пока не позволяют быстро изготавливать достаточно достоверный контент. Но часто этого и не нужно, даже плохо сгенерированный взрыв в Пентагоне . А до распространения по сети фейкового видеоконтента с политиками и лидерами общественного мнения осталось не так много времени. Тем более, что на волне популярности многие из них сами используют генеративные нейросети для создания контента.

Философская телега​

Способ обучения и использования нейросетей напоминает концепцию известного французского философа «Мир как текст». В век информации любая личность сформирована, по большей части, из прочитанных текстов. И восприятие реальности для субъектов искажается текстами, что порождает новые субъективные тексты. Например, Илья Суцкевер напрямую , что при достаточно большой и всеобъемлющей выборке возможность нейросетей просто предсказывать следующее слово в предложении должна привести к очень подробному пониманию мира. Другими словами: нейросеть, прочитавшая достаточное количество текстов, сможет понять все грани реального мира.
Вот только человек проверяет полученные знания, взаимодействуя с материальным миром. Может подвергнуть сомнению любую информацию, пройдя до материального первоисточника. Отринуть субъективные выводы автора и выработать собственные. Нейросеть такой возможности лишена изначально. Более того, RLHF, петля обратной связи на этапе дообучения, приносит ещё больше субъективного взгляда разметчиков, которые могут не обладать обширными знаниями. Среднее мнение по субъективным текстам не обязано коррелировать с материальным миром. Если количество текстов, оправдывающих теорию плоской земли, станет большим, чем количество опровергающих, то теория плоской земли вполне может встать рядом с научными теориями. Благо, текстам из википедии можно добавить побольше веса.

Так что же, нас всех уволят?​

Обязательно уволят. Когда-нибудь.
Мировая экономика входит в очередной виток всеобщего , во время которого урезать затраты на ФОТ — единственный способ обеспечить рост прибыли. Первой волной пошли , находящихся на грани самоокупаемости и ниже. Второй волной пойдут работники, которых хоть как-то можно заменить ИИ, только создав видимость их работы. IBM уже на 8 тысяч позиций.
Выдаваемый нейросетью текст на первый взгляд не отличается от текста копирайтера, а сгенерированные изображения побеждают в конкурсах и . И кого остановит отсутствие информации, когда техподдержку первой линии заменяли чат-ботами первого поколения? Пользователи до сих пор жалуются, что чат-боты не помогают решить проблему. «Лайфхаки», как выйти на оператора, востребованы у аудитории. Поэтому увольнять будут, несмотря на падение работоспособности даже в .
Пользователи сети начали страдать от избыточного информационного шума ещё до появления нейросетей. Умение искать достоверную информацию превратилось в необходимый навык. Но в ближайшие годы нас ждёт стремительное обесценивание информации. По крайней мере, с таким Джеффри Хинтон уволился из Google. Ящик Пандоры уже не закрыть. контента петабайт мусора уже на подходе. Массовые сокращения работников под прикрытием внедрения ИИ только начались. А тысячи «волшебников» от мира IT спешат продать AI для собак, для дорожных работников, для выбора цвета штанов.












 
  • Теги
    chatgpt ии нейросеть
  • Сверху Снизу