Автоматична класифікація текстів

dc.contributor.authorДубовик, Андрій uk_UA
dc.contributor.authorВолинець, Євгеній uk_UA
dc.date.accessioned2026-02-03T11:22:48Z
dc.date.available2026-02-03T11:22:48Z
dc.date.issued2025
dc.descriptionThis study explores modern methodologies in the field of automatic text classification, a critical task in natural language processing (NLP) that enables the categorization of unstructured textual data into predefined groups without manual intervention. The rapid growth of digital text across domains such as business, media, science, and social networks has created a pressing need for scalable and accurate classification systems. The research provides an analytical overview of three primary approaches: rule-based systems, machine learning methods, and hybrid models. Particular attention is paid to evaluating the strengths and limitations of several popular machine learning algorithms, including Naive Bayes, Support Vector Machines (SVM), and Recurrent Neural Networks (RNN). While advanced techniques such as BERT and Large Language Models (LLMs) demonstrate high performance, they are not considered optimal for lightweight, user-trainable applications due to their high computational costs. To support practical implementation, the study proposes a system architecture based on the Python programming language and a suite of supporting libraries (e.g., TensorFlow, scikit-learn, NLTK, NumPy, Pandas, Matplotlib, and Seaborn). The AG News Classification Dataset is recommended as the initial training corpus, providing a robust foundation for multi-class categorization tasks. The final system design emphasizes modularity and user configurability. It allows end users to preprocess their own text data, train classification models on domain-specific content, and utilize combinations of models to improve performance. The research recommends a model ensemble consisting of Naive Bayes, SVM, and RNN due to their balance between effectiveness and computational efficiency. This study not only highlights the technical viability of automated text classification systems but also presents a practical, extensible framework suitable for real-world applications, especially for underrepresented languages such as Ukrainian. The resulting system aims to bridge the gap between academic research and deployable technology, offering a customizable platform for tasks ranging from document organization and content filtering to sentiment analysis and market research.en_US
dc.description.abstractУ цьому дослідженні здійснено аналіз сучасних підходів до класифікації текстової інформації. Особливу увагу приділено автоматичній класифікації текстів, що передбачає їхній розподіл за визначеними категоріями без використання ручного аналізу. Розглянуто й порівняно ефективність різних методів класифікації з акцентом на гібридні системи, які здатні поєднувати переваги окремих підходів і забезпечувати підвищену точність та продуктивність моделей. Також обґрунтовано вибір інструментальних засобів для подальшої програмної реалізації системи автоматизованої класифікації текстів за категоріями. Для навчання моделей запропоновано використовувати збірку AG News Classification Dataset з платформи kaggle.com. Доцільним вважається обмеження класифікаційного процесу комбінацією трьох моделей — Naive Bayes, Support Vector Machine (SVM) та Recurrent Neural Networks (RNN), які вирізняються невисокими вимогами до обчислювальних ресурсів і часу на тренування. uk_UA
dc.identifier.citationДубовик А. В. Автоматична класифікація текстів / Дубовик А. В., Волинець Є. А. // Наукові записки НаУКМА. Комп'ютерні науки. - 2025. - Т. 8. - С. 102-107. - https://doi.org/10.18523/2617-3808.2025.8.102-107 uk_UA
dc.identifier.issn2617-3808
dc.identifier.issn2617-7323
dc.identifier.urihttps://doi.org/10.18523/2617-3808.2025.8.102-107
dc.identifier.urihttps://ekmair.ukma.edu.ua/handle/123456789/38243
dc.language.isouk uk_UA
dc.relation.sourceНаукові записки НаУКМА. Комп'ютерні науки uk_UA
dc.statusfirst published uk_UA
dc.subjectкласифікація текстів uk_UA
dc.subjectмашинне навчання uk_UA
dc.subjectоброблення української мови uk_UA
dc.subjectNaive Bayesen_US
dc.subjectSVMen_US
dc.subjectRNNen_US
dc.subjectпопереднє оброблення тексту uk_UA
dc.subjectстаття uk_UA
dc.subjecttext classificationen_US
dc.subjectmachine learningen_US
dc.subjectUkrainian language processingen_US
dc.subjectNaive Bayesen_US
dc.subjectSVMen_US
dc.subjectRNNen_US
dc.subjecttext preprocessingen_US
dc.titleАвтоматична класифікація текстів uk_UA
dc.title.alternativeAutomatic text classificationen_US
dc.typeArticle uk_UA
Files
Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Dubovyk_Volynets_Avtomatychna_klasyfikatsiia_tekstiv.pdf
Size:
477.17 KB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: