Використання одно- та багатомовних моделей на базі BERT для вирішення задач автоматичного оброблення текстів

dc.contributor.authorВанін, Данилоuk_UA
dc.date.accessioned2026-02-03T13:33:01Z
dc.date.available2026-02-03T13:33:01Z
dc.date.issued2025
dc.descriptionThis article investigates monolingual and multilingual BERT-based Transformer models. Its primary aim is to compare the behaviour of these models on a set of natural-language-processing (NLP) problems, with particular attention to their application to Ukrainian. The analysis is grounded in standard practice: large-scale masked-language pre-training, supervised fine-tuning, and evaluation on public, freely available corpora. Five representative NLP tasks are examined—document classification, sentiment analysis, named-entity recognition, part-of-speech tagging, and sentence-level semantic similarity—because they cover core linguistic phenomena and underpin most applied pipelines. All checkpoints are trained and tested in identical experimental settings, an approach that is especially important for Ukrainian, which remains a low-resource language. The results show that both model families are capable of solving the selected tasks, yet each excels under different conditions. Monolingual checkpoints deliver higher accuracy on problems that hinge on fine morpho-syntactic detail, such as handling case endings or varied word order. Multilingual checkpoints, in turn, offer a cost-effective solution when Ukrainian training data are scarce: knowledge transferred from related Slavic languages helps maintain acceptable quality while lowering annotation effort. By clarifying when each strategy is preferable, the article provides practitioners with a concise decision framework and argues for the creation of a unified open benchmark to track progress. Such infrastructure will raise overall model quality, stimulate new Ukrainian-language research, and accelerate the development of more effective, resource-aware NLP technologies.en_US
dc.description.abstractОбʼєктом дослідження цієї статті є одно- та багатомовні моделі на основі BERT. Предметом дослідження було порівняння продуктивності таких моделей на завданнях ОПМ із наголосом на їх застосуванні для української мови. Методологічну основу порівняльного аналізу становило використання стандартних підходів до навчання та оцінки моделей. У дослідженні використовувались доступні джерела інформації. Загалом результати дослідження свідчать про те, що як одномовні, так і багатомовні моделі на основі BERT можуть бути ефективними для вирішення завдань ОПМ залежно від конкретної мови, завдання та доступних ресурсів. Хоча одномовні моделі часто перевершують багатомовні у завданнях своєї конкретної мови, багатомовні моделі можуть мати перевагу, коли ресурси для навчання одномовних моделей обмежені. Проведене порівняння роботи одно- та багатомовних моделей для різних мов додатково підкреслило важливість проведення окремого порівняння їх застосування для української мови. Проведений аналіз сприятиме створенню комплексного україномовного бенчмарку, що покращить якість моделей і стимулюватиме нові дослідження у галузі ОПМ для української мови, розроблення нових, більш ефективних моделей.uk_UA
dc.identifier.citation111uk_UA
dc.identifier.issn2617-3808
dc.identifier.issn2617-7323
dc.identifier.urihttps://doi.org/10.18523/2617-3808.2025.8.76-83
dc.identifier.urihttps://ekmair.ukma.edu.ua/handle/123456789/38247
dc.language.isoukuk_UA
dc.relation.sourceНаукові записки НаУКМА. Комп'ютерні наукиuk_UA
dc.statusfirst publisheduk_UA
dc.subjectоброблення природної мовиuk_UA
dc.subjectвеликі мовні моделіuk_UA
dc.subjectодно- та багатомовні моделіuk_UA
dc.subjectBERTen_US
dc.subjectстаттяuk_UA
dc.subjectnatural language processingen_US
dc.subjectlarge language modelsen_US
dc.subjectmonolingual and multilingual modelsen_US
dc.subjectBERTen_US
dc.titleВикористання одно- та багатомовних моделей на базі BERT для вирішення задач автоматичного оброблення текстівuk_UA
dc.title.alternativeThe application of monolingual and multilingual BERT-based models for text automation tasksen_US
dc.typeArticleuk_UA
Files
Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Vanin_Vykorystannia_odno_ta_bahatomovnykh_modelei_na_bazi_BERT_dlia_vyrishennia_zadach_avtomatychnoho_obroblennia_tekstiv.pdf
Size:
517.12 KB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description:
Collections