Автоматичне формування онтології товарів на основі аналізу даних електронної комерції

Loading...
Thumbnail Image
Date
2025
Authors
Жежерун, Олександр
Колесніков, Антон
Journal Title
Journal ISSN
Volume Title
Publisher
Національний університет "Києво-Могилянська академія"
Abstract
Після створення концепції Semantic Web онтологія стала синонімом рішення проблем розуміння природної мови комп'ютерами [1]. Проте ручне створення онтологій потребує значних інтелектуальних ресурсів та швидко застаріває. Щоб знайти рішення, з'явився напрям онтологічної інженерії, який вивчає шляхи автоматизації генерування знань з тексту [2,3]. У процесі роботи розглянуто задачу автоматизованої генерації онтології товарів з використанням гетерогенних даних з 34 джерел електронної комерції чотирма мовами. Побудовано систему, яка формує онтологію з 486 концептів без ручного створення словників. Традиційні підходи потребують залучення експертів та ручного створення правил, що не масштабується при роботі з мільйонами товарів [3,4]. Сучасні методи можна поділити на три класи: словникові системи (потребують ручних синонімів), правилові системи (не масштабуються), системи на основі машинного навчання (потребують великих розмічених датасетів) [5].
Description
The article presents a system for automatic generation of product ontology based on analysis of heterogeneous data from multiple e-commerce sources. The system architecture and algorithm for concept extraction from natural language texts without manual synonym dictionary creation are described. The system generated an ontology with 486 concepts and 1216 relationships with F1=95.2% extraction accuracy. The system uses a four-layer hybrid architecture with transformer embeddings (gte-small, 384-dimensional) and HNSW indexing (M=16, efSearch=16). Experimental deployment on 700,000 products from 34 sources in four languages showed F1=95.2% concept extraction accuracy at 13 products per second processing speed. Main advantages: no need for large labeled datasets, automatic multilingual processing without translation dictionaries, ability to supplement ontology with new concepts without retraining. The system can be adapted for other domains: medicine, finance, logistics.
Keywords
онтологічна інженерія, база знань, онтологія продукту, обробка природної мови, трансформаторні вбудовування, семантичне зіставлення, великі дані, матеріали конференції, ontology engineering, knowledge base, product ontology, natural language processing, transformer embeddings, semantic matching, big data
Citation
Жежерун О. П. Автоматичне формування онтології товарів на основі аналізу даних електронної комерції / Жежерун О. П., Колесніков А. О. // Теоретичні та прикладні аспекти побудови програмних систем : праці 16 Міжнародної науково-практичної конференції, 23-24 листопада 2025 року, Київ / [за заг. ред. М. М. Глибовця, Т. В. Панченка та ін. ; Факультет інформатики Національного університету "Києво-Могилянська академія" та ін.]. - Київ : НаУКМА, 2025. - С. 98-100.