«Большие языковые модели — всё ещё статистические аппроксиматоры или уже почти настоящий интеллект?»

BIS Journal №3(54)2024

13 августа, 2024

«Большие языковые модели — всё ещё статистические аппроксиматоры или уже почти настоящий интеллект?»

Вопрос, что такое общий искусственный интеллект (Artificial General Intelligence, AGI), является предметом дебатов в научном сообществе. Я лично придерживаюсь определения, которое дали этому феномену трое известных учёных и разработчиков мирового уровня в области искусственного интеллекта: Бен Гёрцель, Питер Восс и Шейн Легг, один из основателей компании DeepMind. По их мнению, главный признак AGI — способность компьютерной системы обучаться любым задачам.

Именно по этому параметру проходит линия разграничения традиционных систем искусственного интеллекта ИИ, которые относятся к классу слабого ИИ (это и классические системы логического интеллекта, основанные на правилах, и искусственные нейронные сети — все они создаются для решения одной конкретной задачи), и системы сильного/общего ИИ (AGI), которые, подобно человеку, способны с течением времени приобретать новые навыки и осваивать новые «профессии».

Каноническое определение AGI Бена Гёрцеля — это способность достигать сложных целей в сложных условиях. Пей Ванг дополнил это определение необходимостью адаптации к ограниченным ресурсам: AGI — это не просто про достижение сложных целей (больше одной) в сложных средах (больше одного параметра), но ещё и про адаптивную оптимизацию потребления ресурсов. Таким образом, с математической точки зрения, общий искусственный интеллект — это не просто некоторое фиксированное свойство или определённое «количество интеллекта», а способность адаптивно развиваться в любых условиях, какие будут предъявлены программной системе.

Рис. 1. Где мы находимся на пути к общему/сильному ИИ

 

В процессе своего развития способность может развиться до уровня человеческого интеллекта (Human-Level Artificial Intelligence), а потом и превысить его — Super Human-Level Artificial Intelligence). В этой эволюции (рис. 1) важно то, что если мы сконструировали систему с таким количеством памяти, которая позволяет обучиться до уровня Human Level Intelligence, то, просто добавив быстродействия или увеличив объём памяти, автоматически получаем Super Human Intelligence. Согласитесь, звучит сильно — для кого-то воодушевляюще, а для кого-то — устрашающе. Давайте разберёмся.

 

О «разумности» больших языковых моделей

Сегодня всё больше специалистов склоняются к мнению о том, что общий ИИ становится всё ближе. Действительно, когда 10 лет назад чат-бот, разработанный компанией русскоязычных разработчиков JustAI, впервые в мире успешно прошёл тест Тьюринга (а он долгое время считался объективным мерилом искусственного интеллекта), это вызвало скепсис специалистов. Ведь тест был пройден специализированной программой, которая была создана именно под задачу прохождения теста Тьюринга. Но уже 1,5–2 года мы наблюдаем, что нейронные сети становится непросто подловить на том, что ответы даёт не человек, а компьютерная система. По крайней мере, до тех пор, пока не проявляются пресловутые «галлюцинации» модели. Но факт сходства с человеком ещё не делает их реализацией общего искусственного интеллекта. Почему?

Если вы взяли весь объём литературы, накопленной человечеством, а затем долго и мучительно тренировали сеть на этом объёме литературы, то система усвоит именно этот объём «знаний». Но как только вы захотите расширить «эрудицию» этой системы знаниями, скажем, жителей другой планеты, придётся тренировать систему заново. То есть фактически придётся создавать её заново, тратить огромные вычислительные ресурсы. Это принципиальный момент, который не позволяет назвать такую модель AGI: она не способна приобретать новые знания. Да, мы можем задать промпт, который раскроет выученную моделью информацию с неожиданной стороны. И в этом смысле даже можно будет сказать, что система способна к творчеству: она возьмёт отдельные детали из прошлого опыта и соединит их в каком-то новом контексте, с которым она раньше не сталкивалась. Возможно, это будет сопровождаться криком «Эврика!» на стороне пользователя. Но всё равно она не сможет выйти за рамки того жизненного опыта — многократный итеративный подгон коэффициентов, — на который она была натаскана. Она не будет способна инкрементально впитывать в себя новую информацию и обучаться новым навыкам без дополнительного набора тренировочных данных и новых итераций перетренировки.

Впрочем, будет несправедливо считать, что технологии «накопления ума» больших моделей стоят на месте. Наоборот, во многих аспектах происходят прорывы. Например, оказалось, что количество действительно переходит в качество: нейросеть, которая вроде бы была не способна обучиться решению какой-нибудь интеллектуальной задачи, после увеличения количества слоёв и параметров начинает демонстрировать такие умения. А ещё выяснилось, что вместо ручной разметки данных можно совмещать аудио с видео или текст с картинками, и система будет автоматически находить корреляционные связи между визуальным и текстовым рядом. По сути, мультимодальность на больших данных играет роль неявной разметки. То есть мы можем разметить вручную малое количество данных, но разметить их очень точно — так обучали нейросети раньше. А можно взять огромное количество данных и разметить их не очень точно — так обучают большие языковые модели. Результат может оказаться аналогичным. И чем больше видов модальности можно использовать, чем больше объёмы данных, тем более точными могут становиться обученные на этих данных модели. И всё потому, что мы размечаем данные одновременно в нескольких аспектах и объёмах, где статистика «больших чисел» приводит к переходу количества данных в качество моделей. Первый способ с точной ручной разметкой («обучение с учителем») требовал огромных человеческих ресурсов по разметке, и всё равно не удавалось получить достаточное количество размеченных данных для обучения во всех возможных задачах. Второй способ, основанный на больших объёмах неразмеченных и мультимодальных данных («обучение без учителя»), позволяет тренировать модели для любых предметных областей, где есть достаточное число данных для обучения, и для этого не обязательна дорогостоящая ручная разметка.

Впервые описанный эффект был получен в исследованиях многоязычных систем машинного перевода на основе глубоких нейросетей-трансформеров компанией Google. Оказывается, что если систему обучают на большом количестве языков, то она гораздо лучше формирует свои внутренние представления о соответствующих смыслах, чем в случае одного-двух языков. Образно говоря, если система получит рассуждение о том, что «мама мыла раму» на десятке разных языков, её внутреннее представление о происходящем будет гораздо богаче, чем в случае одного языка. Это тоже проявление феномена мультимодальности.

Объяснение этого явления достаточно простое. Обучение нейронной сети — это алгебраические вычисления, решение системы множества уравнений с множеством неизвестных. Задача — найти приближённые решения этой системы уравнений итерационным методом: мы постепенно подбираем всё более и более точные значения коэффициентов в уравнениях таким образом, чтобы то, что мы ожидаем получить на выходе, минимально отличалось от того, что получаем реально. Оказывается, что совершенно неважно, что именно мы таким образом пытаемся предсказать: тональность звука, символ текста или значение пикселя. В любом случае мы пытаемся построить систему коэффициентов, которая, опираясь на некоторый имеющийся набор данных, предсказывает следующее значение, стремясь уменьшить ошибку предсказания. Значит, чем больше в нашем распоряжении этих уравнений, тем статистически более точно мы можем находить решение задачи. Конечно, при условии, что эти уравнения действительно описывают некоторый реальный мир, а не просто «нагенерированы» случайным образом и потому не имеют решения.

 

О пользе галлюцинаций

После того как мы научились предсказывать следующее состояние коэффициентов уравнений, мы можем поместить систему в такое состояние, в котором она раньше никогда не была. И тут она честно попытается «придумать» следующее состояние. Здесь возникает то, что в одних ситуациях называют «галлюцинациями» нейросетевой модели или «бредовыми идеями» человека, в других — «эврикой» или «творческими удачами» гения. Не вполне справедливы обвинения нейронных сетей в «галлюцинациях». Ведь любой выдающийся учёный, который делает открытия, по сути, постоянно «галлюцинирует». А когда некоторые «галлюцинации» подтверждаются экспериментально, они становятся открытиями, «эвриками».

Вот почему я не могу сказать, что именно наличие галлюцинаций у нейронных сетей говорит об их низких когнитивных способностях. Когнитивные способности как раз нормальные, тем более если взять в качестве набора знаний весь интеллектуальный багаж человечества, а количество искусственных нейронов — сопоставимое с тем, что есть в мозге у человека! Важно другое: если мы сумели с помощью систем коэффициентов создать нечто очень похожее на человеческое поведение, значит, материалистическая картина мира становится всё более доказуемой: нынешняя модель человеческого мозга, состоящая из конечного числа нейронов и синапсов, неплохо описывает интеллектуальное поведение человека, как минимум — на уровне текстовых коммуникаций.

Более того, можно допустить, что если искусственный интеллект будет далее эволюционировать в сторону более творческих «галлюцинаций», то будут далее развиваться технологии автоматизации генерации картин, литературных произведений, музыки и других творческих видов деятельности, которые сейчас находятся в самом начале своего развития. Да, пока что ещё где-то появляются шесть пальцев на ладони и т. д., но это временные ошибки, они будут быстро исправляться. А вот с превращением робота в посудомойку или полотёра — как раз большие проблемы. Такие нетворческие работы придётся выполнять людям… Правда, справедливости ради нужно отметить, что в области интеллектуального труда у больших моделей есть существенные ограничения. Они могут выполнять интерполяции и даже экстраполяции в областях, в которых работает много людей. Например, можно попросить LLM написать алгоритм разбора текста на токены, то есть последовательности символов. И она это легко сделает, потому что на GitHub можно найти тысячи вариантов реализации алгоритма токенизации, обучиться и создать ещё один алгоритм в соответствии с заданными исходными данными. Но если поставить ей задачу, для которой в тренировочном наборе данных нет ничего похожего, система не сможет её решить.

 

О доверенных реализациях систем искусственного интеллекта

В части больших языковых моделей наши отечественные исследования двигаются в фарватере передового мирового опыта: американского и китайского, мы занимаемся воспроизведением чужого опыта с некоторым сдвигом во времени. Причём, если в области математики LLM мы отстаём на шаг-полшага, то с точки зрения доступных вычислительных мощностей мы на десяток шагов позади. Основная конкуренция разворачивается между Китаем и США, обе страны вкладывают сумасшедшие деньги в университетские исследования, образование, формирование исследовательского сообщества. У нас же все основные достижения появляются в лабораториях крупных компаний уровня Сбера, «Яндекса» и МТС. Хотя, конечно, спрос на современные интеллектуальные решения со стороны предприятий критической информационной инфраструктуры очень велик. И там невозможно доверить принятие решений системе, которая будет делать это на основании модели, обученной на данных публичного интернета, или с любым другим обучением на неизвестно каких данных. Здесь начинается тема прозрачного, доверенного или интерпретируемого искусственного интеллекта с полным пониманием того, на основании чего система принимает те или иные решения. Почему это важно для значительного числа отраслей экономики?

Если мы можем получить достаточно большой набор консистентных данных, правильно его токенизировать, то есть разбить данные на некоторые обучающие выборки, то в принципе можно создать систему, которая будет предсказывать всё что угодно: транспортный поток, поведение плазмы в реакторе или движение стад крупного рогатого скота на некоторой территории. Её основная ценность для бизнеса заключается в экономии затрат на поддержку принятия решений. Однако в ряде прикладных задач и сфер деятельности, даже если система может предложить модель прогнозирования и рекомендаций по принятию решений, её необходимо верифицировать, прежде чем начать доверять предсказаниям и рекомендациям. Можно верифицировать её экспериментально, но во многих случаях мы не можем пойти на такой эксперимент, поскольку цена эксперимента будет слишком велика. Например, если система необходима для предотвращения технологических катастроф, у нас, как правило, просто нет данных о нужном количестве катастроф. И сгенерировать такие искусственные данные тоже нельзя. Если мы всё-таки набрали достаточно данных и обучили модель, которую не можем позволить верифицировать экспериментально, остаётся формальная верификация, например, человеком-экспертом. Например, в области энергетики, где работает компания «Модульные системы „Торнадо“», в системах АСУ ТП собирается огромное количество исторических данных о динамике технологических процессов, и всё управление этими процессами строится на основе языков программирования на уровне формальных спецификаций. Сейчас такие программы пишутся вручную. Но если бы система ИИ на основе обучающего материала могла писать такие программы для верификации экспертом, это имело бы важное прикладное значение. Но пока подобных решений на рынке нет…

Очень многое зависит от возможности, во-первых, собрать данные в конкретной предметной области и, во-вторых, от того, насколько хорошо система может представить эти данные в виде предсказуемой, интерпретируемой и верифицируемой модели. Надо сказать, что с формированием предсказуемых моделей на сегодняшний день всё довольно плохо: практически все существующие технологии LLM являются неинтерпретируемыми и неверифицируемыми.

Получается парадоксальная ситуация: символьный (логический) искусственный интеллект остался далеко позади нейронных сетей с точки зрения точности и возможности обучения, а вот с точки зрения интерпретируемости системы, основанные на правилах, остались в таком же выигрышном положении, как и раньше. К сожалению, на сегодняшний день нейронные сети ничего не предлагают в этом плане. Это хорошо видно на примере таких популярных компьютерных систем, как корпоративные виртуальные консультанты: реальный прогресс в их возможностях пренебрежимо мал за последние, думаю, десятка два лет. В работе, выполненной НГУ по заказу Сбера, мы с коллегами показали возможность реализации таких ассистентов (рис. 2) для систем поддержки принятия решений (СППР) в бизнесе на основе современных логико-вероятностных методов, семантического моделирования, вероятностных формальных понятий и теории функциональных систем П. К. Анохина (https://arxiv.org/pdf/2302.09377). Но для практической реализации и внедрения таких систем требуются затраты, как минимум сопоставимые с теми, которые вливаются сегодня в LLM.

Рис. 2. Когнитивная архитектура СППР для бизнеса на основе логико-вероятностного вывода (ЛВВ), вероятностных формальных понятий (ВФП), теории функциональных систем (ТФС), задачного подхода на основе семантического моделирования (ЗП) и когнитивной базы знаний (КБД)

 

Проблема заключается в том, что натренировать модель на огромном объёме данных, который описывает весь исторический опыт человечества, — это одно дело. И совсем другое — решить конкретную проблему, связанную с конкретным клиентом. Потому что глубокие нейронные сети являются всего лишь аппроксиматорами чудовищной мощности, не способными точно понять суть проблемы в конкретном контексте номеров счетов, товарных позиций, балансов и действий, которые могут быть выполнены по этому счёту. Сегодня они попросту бесполезны за рамками среды развлечений или круга относительно простых задач, где решения осуществляются по шаблону. Решить конкретную сложную задачу можно будет только тогда, когда в системе появится формализованное описание конкретных сфер деятельности, постановок задач в этих сферах и соответствующих решений. Речь идёт об интеграции нейросетевых и символьных моделей (рис. 3).

Рис. 3. Модель гибридного нейросимвольного интеллекта на основе концепции Даниэля Канемана, где символьные и нейросетевые модели и алгоритмы дополняют, обогащают и усиливают друг друга

 

В этом направлении идёт научный поиск. В течение пяти лет мы разбираем различные проекты на еженедельных онлайн-семинарах русскоязычного сообщества разработчиков общего/сильного искусственного интеллекта AGIRussia (https://agirussia.org/, https://www.youtube.com/siberai). Например, в Новосибирском госуниверситете (https://bigdata.nsu.ru/lab/) коллеги получают неплохие результаты с помощью обогащения нейросетевых моделей семантическими представлениями: с помощью ограничения и структурирования вывода нейросетевой модели некоторой семантической структурой можно добиться существенного повышения качества предсказаний или классификации предъявленных задач. Правда, остаётся вопрос, откуда эти семантические модели взять: задача получения структурированных знаний из неразмеченных массивов данных пока не решена, и появление LLM пока не приблизило её решение. В проекте с открытым кодом Aigents (https://aigents.com/) показана возможность автоматического (без учителя) выделения значимых символов из текстов и классификация их по осмысленным категориям, однако в общем виде задача пока не решена.

Кстати, информационное пространство у нас не относится к категории критической инфраструктуры. Но тем не менее имеет большое значение, к какой конкретной модели обращаются с запросами обычные российские люди — школьники, студенты, маркетологи, которых всё время активно призывают пользоваться LLM. Потому что есть большие риски, связанные с возможностью использования больших языковых моделей для массированного информационного воздействия на аудиторию в онлайн-пространстве, как для достижения маркетинговых целей бизнеса, так и для решения политических задач в русле межгосударственного противостояния. На это указывают известные эксперты как за рубежом (Илон Маск), так и у нас в стране (Игорь Ашманов). Но тут начинают действовать законы поляризации общества: в то время как одни люди стремятся обезопасить страну великим российским файрволом, другие с неменьшим энтузиазмом отстаивают идею «науки без государственных границ». Но что делать, если те смыслы, которые несёт взаимодействие с той или иной языковой моделью, оказываются неприемлемыми для существенной части общества в силу наличия некоторых ценностей или этических норм, заложенных, скажем так, стейкхолдерами этой модели? Сегодня речь идёт о том, что мир должен быть многополярным не только с точки зрения политических факторов, но и с точки зрения языковых моделей. Вопрос очень непростой, и сегодня, как говорят данные исследований, порой на вопросы политического характера отечественные языковые модели дают ответы, скажем так, не совсем совместимые с повесткой существенной части российского общества.

Стать автором BIS Journal

Смотрите также

Подписаться на новости BIS Journal / Медиа группы Авангард

Подписаться
Введите ваш E-mail

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных

06.09.2024
«С учётом латентной преступности»
06.09.2024
ФСТЭК напомнил об организациях, которые могут «обезопасить» кадры
06.09.2024
Стартовали Международные игры по кибербезопасности!
06.09.2024
В России появится ИТ-система защиты прав граждан за полмиллиарда рублей
06.09.2024
Минцифры собирает заявки на ИТ-гранты
05.09.2024
АБР не в восторге от инициативы регулирования рынка рассрочки
05.09.2024
Объявлена программа 11-го Форума ВБА-2024 «Вся банковская автоматизация»
05.09.2024
DumpForums в зените? Хакеры заявили об утечке банковской базы данных
05.09.2024
Минпромторг и Минобрнауки начнут регулярно обмениваться данными
05.09.2024
Найти средство против пандемии кибермошенничества

Стать автором BIS Journal

Поля, обозначенные звездочкой, обязательные для заполнения!

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных