В настоящее время на рынке можно выделить два типа решений GenAI (генеративного искусственного интеллекта), которые разрабатываются крупными компаниями или стартапами: проприетарные модели, которые бигтехи или стартапы держат в закрытом виде, то есть не выкладывают код и веса этих моделей в открытый доступ, и модели open source, которыми компании делятся с сообществом.
Бигтехи уровня Microsoft (вместе с OpenAI), Google, Nvidia, Apple активно участвуют в разработке генеративных моделей. Стартапы (такие как, например, Stability AI) и другие разработчики также вносят очень большой вклад в развитие этих моделей, который сопоставим, а иногда и превосходит вклад бигтехов. Актуальная тенденция этого сегмента деятельности — развитие мультимодальных моделей, которые способны работать с разными типами данных и решать различные задачи: от генерации текста до ответов на вопросы по видео и даже синтеза мультимедийных данных (изображений, видео, 3D) и т. д.
Что касается положения России на глобальной «карте» GenAI, то на отечественном рынке представлен широкий спектр конкурентоспособных моделей, которые на определённых бенчмарках превосходят по качеству западные аналоги. Например, это модели Kandinsky или GigaChat, созданные Сбером, а также другие модели российских компаний. Важным ресурсом для развития больших генеративных моделей являются вычислительные мощности, производство которых в России хоть и развивается, но не так быстро, — это, безусловно, наша точка роста. Нужны большие вычислительные ресурсы, чтобы обучать большие модели.
Таким образом, ключевыми аспектами эволюции моделей являются развитие вычислительных мощностей, увеличение объёма и качества данных, оптимизация существующих архитектур и создание новых. И мы видим отличные результаты в области развития AI в целом: с помощью моделей искусственного интеллекта сегодня автоматизируется и оптимизируется множество процессов, от выдачи банковских кредитов до создания полноценных изображений по их текстовому описанию. Причём применение больших моделей становится возможным не только на больших вычислительных кластерах (по факту суперкомпьютерах), но и непосредственно на смартфонах. Также наблюдается тенденция к воплощению искусственного интеллекта в физических системах, например роботах, где уже сейчас иногда используются мультимодальные модели. Поэтому с уверенностью можно сказать, что искусственный интеллект (и, в частности, генеративный) уже сейчас применяется практически во всех сферах жизнедеятельности человека, облегчает быт и работу. И количество применений в будущем будет только расти. Именно поэтому разработки в этой области очень важны, ведь одна генеративная языковая или даже мультимодальная модель может стать универсальным помощником человека.
Современные практики создания GenAI-моделей
Очень важная часть при подготовке к обучению моделей — сбор и предобработка данных. Для обучения, например, языковых моделей необходимо огромное количество данных, состоящих из сотен миллиардов или даже триллионов текстовых фрагментов. Источниками для них может служить интернет, общедоступные датасеты и специальные базы знаний. Данные для обучения должны быть качественными, то есть должны пройти предварительную фильтрацию (прежде чем быть загруженными в модель), а также должны быть разнообразными, то есть должны содержать информацию по огромному числу доменов.
Далее на этих данных модель (обычно трансформерная) обучается решать некоторую задачу. Если мы говорим о задачах языкового моделирования, то одной из самых популярных задач является предсказание части следующего слова (токена) на основе предыдущих слов. Таким образом, через модель пропускаются сотни миллиардов текстовых фрагментов, и на каждом фрагменте модель учится предсказывать следующий токен (каждый раз подправляя свои веса, чтобы в следующий проход делать это предсказание ещё более точным). Это самый вычислительно ресурсоёмкий и дорогостоящий этап (для него нужен суперкомпьютер, выделенный на несколько недель или даже месяцев).
После такого обучения языковая модель проходит дополнительную стадию настройки (файнтюнинга) на специфический формат общения с пользователем (в формате «вопрос — ответ», то есть в формате диалога). Без этого этапа модель не сможет нормально отвечать на вопросы (ведь она до этого была обучена только генерировать или продолжать, сочинять текст). Модель доучивается на качественных разнообразных диалоговых данных из различных доменов и областей. Это помогает улучшить качество ответов модели на основе уже имеющихся у неё знаний и выучить её вести диалог с пользователем. Наполнение датасета по узким доменам может происходить путём парсинга данных из интернета или сбора специализированных знаний, например, в университетах.
Обучение моделей генерации изображений происходит с использованием огромных наборов пар «изображение — текст». Аналогично для обучения моделей генерации видео используются наборы пар «видео — текст». При этом мультимодальные модели, способные генерировать изображения, звук и видео, например DALL-E, Midjourney, Suno, Sora, развиваются параллельно с мультимодальными языковыми моделями, такими как GPT-4 и Gemini, и в таком же быстром темпе.
Очень важная и актуальная задача для генеративных моделей — увеличение длины контекста, то есть количества токенов, на которые модель может посмотреть одновременно при генерации следующего токена. Это очень важный аспект, поскольку он позволяет модели обрабатывать за один раз больше данных и делать выводы на их основе, как видно, скажем, на примере эволюции ChatGPT (что обеспечивает всё большую и большую применимость таких моделей).
В разговоре про GenAI нельзя не упомянуть свойство моделей «галлюцинировать». Оно проявляется, например, когда модели сталкиваются с запросами, ответов на которые они ранее не видели в датасете или по которым не было достаточно данных. Но поскольку модели обучены давать ответы на любые вопросы, они начинают «изобретать» ответы, что может привести к ошибкам. Методы борьбы с такими «галлюцинациями», конечно же, существуют — и развиваются в рамках отдельного научного направления. Одним из таких методов можно считать retrival — механику, при которой модель формирует ответ, опираясь в том числе на наиболее релевантные входящему запросу фрагменты, содержащиеся во внешних базах знаний (таких как, например, интернет или специализированная база знаний по процессам компании).
Важно помнить, что любые модели искусственного интеллекта — это всего лишь инструменты, которые помогают автоматизировать некоторые рутинные задачи. При этом важно всегда относиться к ответам модели критически и проверять их, особенно если это касается важных профессиональных областей, таких как медицина.
О будущем развитии GenAI в корпоративном сегменте
В современном мире, где технологии развиваются с невероятной скоростью, всё более актуальной становится идея AI-агентов, обладающих определённым уровнем профессиональной компетентности, и мультиагентных систем, состоящих из взаимодействующих между собой AI-агентов. Почему это направление выглядит перспективным?
Когда модели присваивается определённая роль, будь то математик или философ, она начинает демонстрировать лучшие результаты в соответствующих областях знаний. Но что происходит, когда мы объединяем несколько таких моделей в одну мультиагентную систему? Исследования показывают, что такая система способна справляться с задачами гораздо эффективнее, чем отдельные модели. Мультиагентная система может включать множество различных моделей, каждая из которых выполняет свою уникальную функцию. Это открывает новые возможности для исследований и применений в различных сферах деятельности. Например, в бизнесе создание индивидуального агента для каждого клиента позволяет обеспечить персонализированный подход и улучшить качество обслуживания.
Здесь важно отметить, что количество параметров в моделях, реализующих тех или иных агентов, не является ключевым фактором. Они могут быть как малыми, так и большими, специализироваться на решении задач разного уровня и масштаба. Современная наука активно развивается в различных направлениях, создавая как специализированные, так и фундаментальные GenAI-модели. Последние становятся всё более популярными, поскольку их можно многократно использовать для решения задач в различных доменах.
Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных
Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных