Пошук та визначення плагіату в текстах українською мовою
dc.contributor.advisor | Глибовець, Андрій | |
dc.contributor.author | Величко, Ростислав | |
dc.date.accessioned | 2024-03-21T14:18:50Z | |
dc.date.available | 2024-03-21T14:18:50Z | |
dc.date.issued | 2023 | |
dc.description.abstract | Метою роботи є розробка програми на мові Python, яка визначатиме рівень плагіату в українських текстах за допомогою семантичного моделювання (LDA та LSA). Завдання роботи: 1. Провести аналіз літератури з питань тематичного моделювання, косинусної подібності та Евклідової відстані. 2. Розробити програму на мові Python, яка буде здійснювати підготовку тексту (очищення від зайвих символів, лематизація, токенізація) та застосовувати тематичні моделі LDA та LSA. 3. Реалізувати обчислення косинусної подібності та Евклідової відстані між текстами. 4. Розробити алгоритм визначення рівня плагіату, який буде враховувати результати застосування тематичних моделей та метрик подібності. 5. Провести експериментальне дослідження розробленої програми на корпусі українських текстів для оцінки її ефективності та точності. 6. Зробити висновки та рекомендації щодо можливих покращень програми та перспектив подальших досліджень в даній області. Об'єктом дослідження є українські тексти різної тематики та жанрів, які мають потенційний ризик плагіату. Методи дослідження — аналіз наукової літератури. | uk_UA |
dc.identifier.uri | https://ekmair.ukma.edu.ua/handle/123456789/28333 | |
dc.language.iso | uk | uk_UA |
dc.relation.organisation | НаУКМА | uk_UA |
dc.status | first published | uk_UA |
dc.subject | підходи до виявлення плагіату | uk_UA |
dc.subject | латентне розміщення Дирихле (LDA) | uk_UA |
dc.subject | "торба слів" ( bag-of-words) | uk_UA |
dc.subject | TF-IDF ( Term frequency-inverse document frequency) | uk_UA |
dc.subject | сингулярне розкладання (SVD) | uk_UA |
dc.subject | магістерська робота | uk_UA |
dc.title | Пошук та визначення плагіату в текстах українською мовою | uk_UA |
dc.type | Other | uk_UA |
Files
License bundle
1 - 1 of 1
No Thumbnail Available
- Name:
- license.txt
- Size:
- 1.71 KB
- Format:
- Item-specific license agreed upon to submission
- Description: