Само название «Большая языковая модель» указывает на то, что речь идёт о больших объёмах данных, используемых для обучения соответствующих нейросетевых моделей.
Размер имеет значение
Из того, что мы знаем: для обучения версии GPT-3 использовались данные объёмом в сотни миллиардов слов и порядка 175 миллиардов параметров. Параметры — это коэффициенты в нейросети, которые модель настраивает в процессе обучения. Большое количество параметров позволяет модели более точно воспроизводить и генерировать текст, анализировать контекст и обеспечивать более сложные ответы.
На сегодняшний день лидером в тестированиях открытой организации студентов Беркли является GPT-4, точнее её свежая версия GPT-4o. Точное количество параметров четвёртой модели неизвестно: разработчик не раскрывает точную цифру, но оценочно оно составляет более триллиона (ориентировочно 1,76 трлн) параметров. Отечественные модели насчитывают 29 млрд параметров у GigaChat и, по последним оценкам, 100 млрд у YandexGPT.
Однако, если проводить прямое сравнение, беря за основу только количество заявленных параметров нейросети, это не даст полного понимания качества или возможностей модели. Существует набор тестов, позволяющих оценить, насколько модель хороша в решении задач по следующим направлениям: прохождение тестов, понимание естественного языка, аргументация рассуждений, кодирование и проч. Что-то типа ЕГЭ или ОГЭ.
Кроме того, необходимо понимать, что LLM и данные для её обучения представляют собой технологический продукт, над которым итерационно работают специалисты разных профилей. Представление о том, что поместить большие данные в генеративную языковую модель — это достаточно просто, является большим упрощением. На практике добытые из интернета данные последовательно подвергаются фильтрации, направленной на получения среза данных приемлемого качества, другими (обычно маленькими языковыми) моделями. Проведение такой работы требует привлечения команды аналитиков и специалистов по машинному обучению, а также разметчиков данных.
Стандартный набор источников для формирования обучающего датасета для LLM включает обсуждения на профессиональных форумах, посвящённых узконаправленным тематикам, корпусы текстов из книг, академических статей, научных исследований и программных кодов. Кроме того, существуют базовые корпусы текстов, созданные для решения конкретных задач, таких как машинный перевод, анализ тональности, нахождение ответа на вопрос в заданном контексте. Также имеются и узкоспециализированные корпусы текстов и бенчмарки, отвечающие различным сферам человеческой деятельности. Решение о включении последних в итоговый датасет для обучения LLM также является нетривиальной задачей. Оно опирается на предшествующие исследования (то есть опубликованные ранее научные статьи), в которых анализировался этот набор данных и изучались возможности решения ряда других задач с помощью данных этого корпуса, а также на опыт работы команды с таким датасетом. Например, включение некоторого условного корпуса медицинских текстов может оказаться не лучшей идеей, если выяснится, что диагнозы пациентам в ряде случаев были проставлены в связи со стоимостью оказываемых в дальнейшем медицинских услуг.
Наконец, у компаний-разработчиков LLM существуют так называемые in-house-датасеты, то есть внутренние датасеты, подготовленные экспертами для придания LLM уникальных особенностей. И это ещё не всё! После обучения и оценки качества LLM проходит процедуру «выравнивания», направленную на настройку модели с учётом предпочтений и ожиданий потенциальных пользователей. Выравнивание большой языковой модели можно сравнить с огранкой алмаза: в этот процесс вовлекаются лингвисты и эксперты ряда предметных областей, которые «отшлифовывают» генеративные навыки LLM, делая её ответы полезными, безопасными и естественными.
По большому счёту, в развитии генеративных AI-систем важны все аспекты использования технологий. Критически важное значение имеют объём и качество данных, которые лежат в основе обучения точных и надёжных моделей. А адаптация под различные сферы применения и предметные области позволяет решать уникальные задачи, требующие глубоких знаний, что делает модели более полезными в различных отраслях. Технические и архитектурные инновации, такие как модели MoE (Mixture of Experts), играют ключевую роль в улучшении производительности и эффективности AI-систем.
Чего хочет бизнес от LLM
Безусловно, большие языковые модели привлекают внимание бизнеса, поскольку уже сейчас позволяют автоматизировать элементы широкого спектра бизнес-процессов. Здесь стоит отметить важную роль LLM-моделей с открытым исходным кодом в развитии технологий ИИ. Они позволяют исследователям и компаниям экспериментировать с новыми подходами, улучшать существующие модели и создавать инновационные решения. Открытые модели способствуют демократизации технологий ИИ, снижая барьеры для входа и стимулируя сотрудничество по развитию и применениям таких моделей.
Вместе с тем необходимо оценивать риски потенциальных угроз, задумываясь об автоматизации и использовании продуктов на основе LLM. Большая языковая модель, по сути, является «чёрным ящиком»: у пользователей таких LLM нет возможности проанализировать реальные корпусы данных, использованные при обучении этих LLM, а также непосредственно ознакомиться с их «протоколами» обучения. Таким образом, возникает, например, гипотетическая угроза преднамеренного внесения в обучающий датасет данных, которые при наступлении конкретных условий могут повлечь, например, нарушение целостности обрабатываемых впоследствии данных в значимых бизнес-процессах. Это может быть списано на «галлюцинацию» (генерация некорректной или вымышленной информации) языковой модели, которая сама по себе может представлять собой угрозу в критически важных сценариях. На мой взгляд, внедрение больших языковых моделей в критически значимые бизнес-процессы, безусловно, создаёт новые вызовы в индустрии ИБ, которые ещё предстоит преодолеть, а в вопросе автоматизации следует сконцентрироваться на применении LLM для решения рутинных задач.
Например, «Наносемантика» разрабатывает и продаёт платформу для разработки ботов, и к нам приходит бизнес, который заинтересован в автоматизации коммуникации либо внешних клиентов с компанией, либо внутренних сотрудников между собой. Сегодня практически каждый заказчик интересуется, можем ли мы «подключить бота к ChatGPT». На самом деле не обязательно этой моделью должен быть именно продукт ChatGPT, который, строго говоря, сам уже является чат-ботом, использующим генеративные нейросетевые модели. Заказчики готовы обсуждать обращение к LLM других вендоров, в том числе «Яндекса» и Сбера, а также интересуются возможностью разработки LLM под ключ по их данным, но «чтобы модель отвечала как ChatGPT».
Таким образом, с одной стороны, крупный и средний бизнес хочет использовать преимущества новейших технологий. С другой стороны, он пока не до конца определился, каким образом большие языковые модели должны встраиваться в основные коммуникационные процессы бизнеса. Действительно, тот же ChatGPT знает много фактической информации, может рассказать анекдот, сгенерировать поздравление или научную работу. Это прекрасно, но что это даёт для автоматизации процессов коммуникации в бизнесе? «Живой» оператор в банке или телекоме не будет болтать с клиентом обо всём на свете, искать ответ на вопрос «как решить уравнение» или «как лучше написать инструкцию к телевизору». А если с чат-ботом болтают на отвлечённые темы, то это реально повышает лояльность старых клиентов и привлекает новых? Не создадим ли мы просто собеседника для тех, кому не спится, без выгоды для бизнеса?
По нашему опыту, запрос «говорить как ChatGPT» во многих случаях означает настройку его базы знаний на определённую деловую сферу: общение по продуктам и услугам конкретной компании, формирование и запись обращений потребителей, работа с документами, как этого требует регламент компании, выполнение доступных действий (заявки или подключение новых услуг, транзакции...). Но при этом ожидается, что с точки зрения языка качество коммуникации будет очень высоким, сопоставимым с общением на естественном языке с человеком. Иными словами, бот понимает разные варианты выражения одной и той же мысли, помнит историю диалога, работает с эмоциональным тоном, узнаёт собеседника и помнит его предпочтения в диалоге, в речи различает интонации, голоса взрослых и детей и учитывает эту информацию при стилизации своих ответов. Бот также обладает «коммуникационной личностью», то есть обучается генерировать ответы в заданной стилистике, соответствующей его визуальному образу и «истории».
Какую LLM выбрать?
Можно в самом деле обращаться к ChatGPT. Но любой вендор или разработчик, который пробовал это делать, сразу перечислит целый список сопутствующих сложностей: от сложностей с доступом из России и до проблем в работе с длинными промптами, долгим ожиданием ответа, сложностями в генерации эмоционально окрашенных ответов и др. Русскоязычные пользователи особенно жалуются на определённую «корявость» ответов на русском языке, плохую их стилизацию, а точнее практически отсутствие стилизации, даже если она запрошена в промпте. А ещё на периодическое «галлюцинирование» модели, что выражается, например, в возможной генерации несуществующих слов русского языка.
В этом плане перспективным выглядит обращение к LLM российских вендоров, в первую очередь крупнейших разработчиков: «Яндекс» и Сбер. И здесь тоже не обходится без подводных камней. Например, Алиса «Яндекса» часто отвечает слишком коротко в ситуациях, когда пользователь ожидает более длинного ответа, и в целом хуже держит тему и фокус диалога, чем ChatGPT.
Причём все упомянутые решения ─ облачные, а это означает проблемы с обработкой персональных данных: нет гарантий их конфиденциальности. То же относится к любой важной для бизнеса информации. Поэтому хорошим вариантом выглядит обучение для заказчика индивидуальной LLM. Такая модель может ставиться в контур предприятия, что снимает вопросы по работе с конфиденциальной информацией. Она будет владеть всеми предоставленными данными, но, конечно, научную работу с обзором мировых трендов по выбранной теме не напишет. Если только примеры таких работ не будут изначально заложены в данных для обучения.
Конкуренция ботов
Существующие разговорные боты неплохо справляются с основными задачами бизнеса для компаний, а именно автоматизацией и стандартизацией решения запросов клиентов, проведения анализа, осуществлением продаж и прочих взаимодействий. Эти боты обеспечивают стандартизированные ответы, автоматизируют рутинные задачи и помогают повышать общую эффективность процессов.
Боты нового типа, созданные на базе технологии генеративных сетей, предоставляют больше возможностей для адаптивности и интерактивности. Они могут генерировать более естественные и контекстно-релевантные ответы, что делает взаимодействие с виртуальными ассистентами более продуктивным и комфортным для пользователей. Однако опора на генеративные модели для решения проблем с нуля в расчёте на их огромные базы знаний открывает потенциальные проблемы, такие как галлюцинации и сложности в управляемости ответов. Эти аспекты особенно важны в корпоративной среде, где точность и надёжность ответов имеют критическое значение. Поэтому, хотя LLM-модели имеют огромный потенциал для улучшения взаимодействия с клиентами, они должны использоваться с осторожностью и под контролем.
В перспективе преодолеть эти вызовы может помочь интеграция GenAI с существующими системами и базами данных компаний, а также разработка гибридных подходов, которые сочетают сценарные и генеративные методы. Это позволит использовать преимущества LLM для создания более интеллектуальных и адаптивных систем, одновременно обеспечивая контроль и надёжность, необходимые для бизнес-приложений.
Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных
Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных