GoodsForecast разработала эффективный алгоритм сопоставления наименований товаров

Алгоритм позволяет повысить точность сопоставления наименований товарных позиций в ритейле до 90–95%.

Российская компания GoodsForecast, разработчик решений для прогнозирования спроса и оптимизации товарных запасов, резидент «Сколково», разработала новую технологию «матчинга» чековых данных.

Система, основанная на искусственном интеллекте, позволяет решать проблему сопоставления и распознавания различных товарных позиций (SKU) в торговых точках. 

«В среднем ассортимент российского магазина продуктов питания (FMCG) сегодня составляет около 5–10 тыс. SKU, а названия одних и тех же позиций в одном магазине могут сильно отличаться от их наименований в другом, — рассказывает Андрей Лисица, генеральный директор компании GoodsForecast. — Из-за невозможности точной идентификации товарных позиций компании сталкиваются с большими сложностями при обработке такой информации. Наиболее яркий пример — это аналитика на основе данных ОФД (операторов фискальных данных). Не обладая технологиями «матчинга» товарных позиций, практически невозможно на основе этих данных оценивать продажи того или иного товара в рамках региона, проводить конкурентный анализ, мониторинг пересечения ассортимента в разных магазинах, создавать прогноз спроса на тот или иной товар, а также оценивать и планировать эффект от промоакций».

Сегодня существуют два способа решения проблемы разного описания товарных позиций в различных торговых точках: 1) аналитики в розничных и аналитических компаниях вручную обрабатывают огромные массивы данных, что очень долго и трудозатратно; 2) используются системы на основе machinelearning, однако на 100% автоматизированная система не в состоянии дать точный результат как раз из-за проблемы разрозненности данных при сопоставлении различных товарных позиций. Во всех подобных примерах мы видим точность сопоставления, не превышающую 60–70%.

Технология, разработанная GoodsForecast, позволяет выделять у товарных позиций в различных магазинах общие признаки и с учетом этого создавать их категоризацию.

Анализируемая информация обогащается за счет следующего:

• словаря брендов;

• алгоритма определения и конвертации единиц измерения;

• словаря русского языка с определением частей речи;

• словаря синонимов-алиасов (gold = золото = голд)  и т.п.

«На основе больших данных наша компания строит статистическую модель, которая постоянно развивается. Она хорошо работает с данными ОФД (информация с чеков покупателей в торговых точках) и на их основе  вычисляет принципы, по которым сотрудники магазина могут назвать товар, — поясняет Андрей Лисица. —  Алгоритм не пытается найти похожие строчки с названием товара, а, исходя из массива данных, формирует правила, согласно которым SKU получают наименование. Это очень похоже на то, как работает человек, и, помимо хорошей точности, позволяет легко интерпретировать результаты, а также улучшать полученные правила за счет экспертных корректировок».

Точность сопоставления данных при использовании новой технологии возрастает до 90–95%. Алгоритм знает несколько языков, правила написания слов на них, способен отличать формы слов и части речи. Он может анализировать правильность выстраивания предложения, исправлять допущенные ошибки и восстанавливать смысл. К примеру, найдя название груша «Форель», алгоритм понимает, что речь идет о товаре из категории «фрукты», а не «рыба». При этом алгоритм может с высокой долей вероятности определить и вес данного SKU, и динамику цены этого товара.

Разработка технологии началась два года назад, после того как в 2018 году GoodsForecast выиграла грант Фонда содействия инновациям. На сегодняшний день система внедрена в одной из крупнейших российских ритейловых компаний, активно идут пилоты применения алгоритма в области прогнозирования промоакций, также обсуждается его внедрение в ряде производственных компаний. «В данный момент мы готовы тиражировать разработанную технологию. Основным рынком для нас пока является ритейл, однако наша разработка вполне применима и в других отраслях, включая банковскую сферу, где она может быть использована, к примеру, для повышения точности кредитного скоринга (определения платежеспособности клиентов кредитной организации), — говорит Андрей Лисица. — Также мы видим востребованность продукта на рынке маркетинга и таргетированной рекламы, где для использования данных ОФД также важно решить задачу правильного сопоставления текстовых данных». 

27 марта, 2020

Подписаться на новости BIS Journal / Медиа группы Авангард

Подписаться
Введите ваш E-mail

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных

24.04.2024
У «Сбера» (и рынка?) будет свой SAP за «миллиарды рублей»
24.04.2024
В I квартале хакеры совершили более 19 млн атак на смартфоны россиян
24.04.2024
Минпромторг раздаёт деньги на отечественные решения
24.04.2024
Правительство одобрило ужесточение наказания за утечку ПДн
24.04.2024
«Мы разработали законодательную инициативу по дропам»
24.04.2024
«Мы обеспечили определённый уровень заказа». ГРЧЦ продолжает импортозамещать чипы
23.04.2024
В АП не поддержали поправки о штрафах за утечки ПДн
23.04.2024
Хакеры всё активнее DDoS-ят российскую отрасль энергетики
23.04.2024
Минпромторг начнёт выдавать баллы блокам питания?
23.04.2024
Microsoft — угроза для нацбезопасности? Бывает и такое

Стать автором BIS Journal

Поля, обозначенные звездочкой, обязательные для заполнения!

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных