GoodsForecast разработала эффективный алгоритм сопоставления наименований товаров

Алгоритм позволяет повысить точность сопоставления наименований товарных позиций в ритейле до 90–95%.

Российская компания GoodsForecast, разработчик решений для прогнозирования спроса и оптимизации товарных запасов, резидент «Сколково», разработала новую технологию «матчинга» чековых данных.

Система, основанная на искусственном интеллекте, позволяет решать проблему сопоставления и распознавания различных товарных позиций (SKU) в торговых точках. 

«В среднем ассортимент российского магазина продуктов питания (FMCG) сегодня составляет около 5–10 тыс. SKU, а названия одних и тех же позиций в одном магазине могут сильно отличаться от их наименований в другом, — рассказывает Андрей Лисица, генеральный директор компании GoodsForecast. — Из-за невозможности точной идентификации товарных позиций компании сталкиваются с большими сложностями при обработке такой информации. Наиболее яркий пример — это аналитика на основе данных ОФД (операторов фискальных данных). Не обладая технологиями «матчинга» товарных позиций, практически невозможно на основе этих данных оценивать продажи того или иного товара в рамках региона, проводить конкурентный анализ, мониторинг пересечения ассортимента в разных магазинах, создавать прогноз спроса на тот или иной товар, а также оценивать и планировать эффект от промоакций».

Сегодня существуют два способа решения проблемы разного описания товарных позиций в различных торговых точках: 1) аналитики в розничных и аналитических компаниях вручную обрабатывают огромные массивы данных, что очень долго и трудозатратно; 2) используются системы на основе machinelearning, однако на 100% автоматизированная система не в состоянии дать точный результат как раз из-за проблемы разрозненности данных при сопоставлении различных товарных позиций. Во всех подобных примерах мы видим точность сопоставления, не превышающую 60–70%.

Технология, разработанная GoodsForecast, позволяет выделять у товарных позиций в различных магазинах общие признаки и с учетом этого создавать их категоризацию.

Анализируемая информация обогащается за счет следующего:

• словаря брендов;

• алгоритма определения и конвертации единиц измерения;

• словаря русского языка с определением частей речи;

• словаря синонимов-алиасов (gold = золото = голд)  и т.п.

«На основе больших данных наша компания строит статистическую модель, которая постоянно развивается. Она хорошо работает с данными ОФД (информация с чеков покупателей в торговых точках) и на их основе  вычисляет принципы, по которым сотрудники магазина могут назвать товар, — поясняет Андрей Лисица. —  Алгоритм не пытается найти похожие строчки с названием товара, а, исходя из массива данных, формирует правила, согласно которым SKU получают наименование. Это очень похоже на то, как работает человек, и, помимо хорошей точности, позволяет легко интерпретировать результаты, а также улучшать полученные правила за счет экспертных корректировок».

Точность сопоставления данных при использовании новой технологии возрастает до 90–95%. Алгоритм знает несколько языков, правила написания слов на них, способен отличать формы слов и части речи. Он может анализировать правильность выстраивания предложения, исправлять допущенные ошибки и восстанавливать смысл. К примеру, найдя название груша «Форель», алгоритм понимает, что речь идет о товаре из категории «фрукты», а не «рыба». При этом алгоритм может с высокой долей вероятности определить и вес данного SKU, и динамику цены этого товара.

Разработка технологии началась два года назад, после того как в 2018 году GoodsForecast выиграла грант Фонда содействия инновациям. На сегодняшний день система внедрена в одной из крупнейших российских ритейловых компаний, активно идут пилоты применения алгоритма в области прогнозирования промоакций, также обсуждается его внедрение в ряде производственных компаний. «В данный момент мы готовы тиражировать разработанную технологию. Основным рынком для нас пока является ритейл, однако наша разработка вполне применима и в других отраслях, включая банковскую сферу, где она может быть использована, к примеру, для повышения точности кредитного скоринга (определения платежеспособности клиентов кредитной организации), — говорит Андрей Лисица. — Также мы видим востребованность продукта на рынке маркетинга и таргетированной рекламы, где для использования данных ОФД также важно решить задачу правильного сопоставления текстовых данных». 

27 марта, 2020

Подписаться на новости BIS Journal / Медиа группы Авангард

Подписаться
Введите ваш E-mail

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных

09.02.2026
В CISA намерены бороться с угрозами, исходящими от инсайдеров
09.02.2026
Объектов меньше, нарушений — больше. Какие цифры принесла ФСТЭК
06.02.2026
ФБР надеется усилить кибербезопасность, выставив «Зимний щит»
06.02.2026
Мессенджер imo занял место заблокированного «Вайбера»
06.02.2026
Банк России сопроводит спорные операции подробностями
06.02.2026
Внедряя ИИ, CISO отстают от «победных реляций»
06.02.2026
Число британских ИБ-специалистов растёт, но их всё равно мало
05.02.2026
Приложение Visit Russia пополнится новым функционалом
05.02.2026
В «Вышке» появился ИБ-департамент
05.02.2026
Присутствие эмодзи в коде PureRAT выявило роль ИИ в создании зловреда

Стать автором BIS Journal

Поля, обозначенные звездочкой, обязательные для заполнения!

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных