GoodsForecast разработала эффективный алгоритм сопоставления наименований товаров

Алгоритм позволяет повысить точность сопоставления наименований товарных позиций в ритейле до 90–95%.

Российская компания GoodsForecast, разработчик решений для прогнозирования спроса и оптимизации товарных запасов, резидент «Сколково», разработала новую технологию «матчинга» чековых данных.

Система, основанная на искусственном интеллекте, позволяет решать проблему сопоставления и распознавания различных товарных позиций (SKU) в торговых точках. 

«В среднем ассортимент российского магазина продуктов питания (FMCG) сегодня составляет около 5–10 тыс. SKU, а названия одних и тех же позиций в одном магазине могут сильно отличаться от их наименований в другом, — рассказывает Андрей Лисица, генеральный директор компании GoodsForecast. — Из-за невозможности точной идентификации товарных позиций компании сталкиваются с большими сложностями при обработке такой информации. Наиболее яркий пример — это аналитика на основе данных ОФД (операторов фискальных данных). Не обладая технологиями «матчинга» товарных позиций, практически невозможно на основе этих данных оценивать продажи того или иного товара в рамках региона, проводить конкурентный анализ, мониторинг пересечения ассортимента в разных магазинах, создавать прогноз спроса на тот или иной товар, а также оценивать и планировать эффект от промоакций».

Сегодня существуют два способа решения проблемы разного описания товарных позиций в различных торговых точках: 1) аналитики в розничных и аналитических компаниях вручную обрабатывают огромные массивы данных, что очень долго и трудозатратно; 2) используются системы на основе machinelearning, однако на 100% автоматизированная система не в состоянии дать точный результат как раз из-за проблемы разрозненности данных при сопоставлении различных товарных позиций. Во всех подобных примерах мы видим точность сопоставления, не превышающую 60–70%.

Технология, разработанная GoodsForecast, позволяет выделять у товарных позиций в различных магазинах общие признаки и с учетом этого создавать их категоризацию.

Анализируемая информация обогащается за счет следующего:

• словаря брендов;

• алгоритма определения и конвертации единиц измерения;

• словаря русского языка с определением частей речи;

• словаря синонимов-алиасов (gold = золото = голд)  и т.п.

«На основе больших данных наша компания строит статистическую модель, которая постоянно развивается. Она хорошо работает с данными ОФД (информация с чеков покупателей в торговых точках) и на их основе  вычисляет принципы, по которым сотрудники магазина могут назвать товар, — поясняет Андрей Лисица. —  Алгоритм не пытается найти похожие строчки с названием товара, а, исходя из массива данных, формирует правила, согласно которым SKU получают наименование. Это очень похоже на то, как работает человек, и, помимо хорошей точности, позволяет легко интерпретировать результаты, а также улучшать полученные правила за счет экспертных корректировок».

Точность сопоставления данных при использовании новой технологии возрастает до 90–95%. Алгоритм знает несколько языков, правила написания слов на них, способен отличать формы слов и части речи. Он может анализировать правильность выстраивания предложения, исправлять допущенные ошибки и восстанавливать смысл. К примеру, найдя название груша «Форель», алгоритм понимает, что речь идет о товаре из категории «фрукты», а не «рыба». При этом алгоритм может с высокой долей вероятности определить и вес данного SKU, и динамику цены этого товара.

Разработка технологии началась два года назад, после того как в 2018 году GoodsForecast выиграла грант Фонда содействия инновациям. На сегодняшний день система внедрена в одной из крупнейших российских ритейловых компаний, активно идут пилоты применения алгоритма в области прогнозирования промоакций, также обсуждается его внедрение в ряде производственных компаний. «В данный момент мы готовы тиражировать разработанную технологию. Основным рынком для нас пока является ритейл, однако наша разработка вполне применима и в других отраслях, включая банковскую сферу, где она может быть использована, к примеру, для повышения точности кредитного скоринга (определения платежеспособности клиентов кредитной организации), — говорит Андрей Лисица. — Также мы видим востребованность продукта на рынке маркетинга и таргетированной рекламы, где для использования данных ОФД также важно решить задачу правильного сопоставления текстовых данных». 

27 марта, 2020

Подписаться на новости BIS Journal / Медиа группы Авангард

Подписаться
Введите ваш E-mail

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных

17.10.2025
В обход Совбеза ООН — через Владивосток
17.10.2025
В Липецке подвели итоги межрегионального форума «Реалии и Стратегии КиберБезопасности»
17.10.2025
Шадаев: Необходимо уже вводить какую-то жёсткую ответственность
17.10.2025
Нейросети едят хлеб «Википедии»
17.10.2025
Минэнерго предложило решение, которое устроит и ТЭК, и сектор ИИ
17.10.2025
Только 17% россиян ни разу не встречало скамеров
16.10.2025
Настоящий Т2. Операторы связи продолжают погружаться в кибербез
16.10.2025
«Госуслуги» предлагают назначить себе «ИБ-опекуна»
16.10.2025
Gartner: Мировые траты на модели GenAI возрастут почти пятикратно за два года
16.10.2025
Выплаты Apple Bug Bounty теперь могут достигать 5 млн долларов

Стать автором BIS Journal

Поля, обозначенные звездочкой, обязательные для заполнения!

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных