Семантичний пошук на основі представлень, отриманих за допомогою нейронних мереж

Loading...
Thumbnail Image
Date
2022
Authors
Крошин, Олександр
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Магістерська робота присвячена задачі семантичного пошуку, зокрема, задачі ранжування документів за запитами користувачів. В роботі розглядається розв’язок задачі ранжування за допомогою нейронних мереж архітектури GPT-3. В роботі пропонується розв’язувати цю задачу за допомогою імплементації GPT-3 під назвою OPT. Розглядаються різні варіанти розв’язку задачі без додаткового тренування, зокрема, використання різних форматів вхідних текстів. В роботі пропонується модель Cross-Encoder на основі OPT, що демонструє кращі результати роботи на прийнятих в індустрії тестах в порівнянні з існуючими рішеннями, що вважаються стандартами. Розглядаються експерименти з дистиляцією моделей OPT задля подальшого покращення їхніх результатів в задачах семантичного пошуку. Робота складається з трьох розділів. Перший, теоретичний розділ присвячений постановці задачі ранжування, огляду існуючих метрик та класичних підходів. Другий розділ описує використання нейронних мереж в задачі ранжування а також демонструє рішення, побудовані на базі моделей архітектури GPT-3. Третій, практичний розділ присвячений побудові та тренуванню Cross-Encoder на основі моделей OPT, експериментам з дистиляцією моделей та обробці результатів. Результати експериментів демонструються у висновку.
Description
This master’s thesis is dedicated to semantic search problem. It is focused on the task of re-ranking documents based on user query, particularly, by solving it via applying neural networks based on GPT-3 architecture. This work introduces GPT-3 implementation, OPT, to the re-ranking task, proposes best prompt for its zero-shot evaluation, introduces OPT-based cross-encoder that outperforms previous BERT-based SOTA approaches by a margin and experiments with different knowledge-distillation settings in order to additionally boost performance of smaller model. The work is split into three sections. The first section sets theoretical background of re-ranking problem, reviews metrics and industry-standard approaches. Second section explains usage of neural networks in semantic search and describes different solutions to re-ranking problem using networks of GPT-3 architecture. The third, experimental section, covers training an OPT-based Cross-Encoder, describes knowledge-distillation experiments and evaluates proposed solutions. Results of the experiments are discussed in conclusion section. All the used literature is in the References section.
Keywords
classic retrieval approach. BM-25, training dataset: MS MARCO Passage, training a Cross-Encoder, магістерська робота
Citation