Генеративний фреймворк для побудови візуально-текстових датасетів на основі онтологій
Loading...
Date
2025
Authors
Чоловський, Сергій
Здирко, Владислав
Journal Title
Journal ISSN
Volume Title
Publisher
Національний університет "Києво-Могилянська академія"
Abstract
Одним з напрямків комп’ютерного зору є візуально-лінгвістична обробка зображень, він включає в себе, зокрема, такі задачі як опис(captioning), відповіді на питання за зображенням(далі VQA - visual question answering), та загальне розуміння(visual common sense reasoning). Задача VQA полягає в тому, щоб на основі зображення надати коротку відповідь на розгорнуте питання (в common sense задачах відповідь може бути довільною).
Description
This work presents a general framework for generating VQA (Visual Question Answering) datasets across arbitrary knowledge domains. Logically complex questions are derived from OWL-ready formatted ontologies, and correct answers are obtained using SPARQL queries. The diversity of generated questions is enhanced through paraphrasing with a large language model. Relevant scenes are generated using Stable Diffusion with CLIP-score–based post-filtering. We believe this hybrid approach enables efficient creation of high-quality, semantically rich datasets.
Keywords
комп’ютерний зір, VQA-датасети, онтологічні моделі, генеративні нейронні мережі, матеріали конференції
Citation
Чоловський С. О. Генеративний фреймворк для побудови візуально-текстових датасетів на основі онтологій / Чоловський С. О., Здирко В. В. // Теоретичні та прикладні аспекти побудови програмних систем : праці 16 Міжнародної науково-практичної конференції, 23-24 листопада 2025 року, Київ / [за заг. ред. М. М. Глибовця, Т. В. Панченка та ін. ; Факультет інформатики Національного університету "Києво-Могилянська академія" та ін.]. - Київ : НаУКМА, 2025. - С. 80-81.