Оцінка трансформерних моделей mT5 для українсько-англійського перекладу
Loading...
Date
2025
Authors
Махаммедов, Жан
Кирієнко, Оксана
Ткаченко, Владислав
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Цю статтю присвячено кількісному вивченню впливу розміру архітектури Transformer на точність українсько-англійського машинного перекладу з використанням моделі mT5. Досліджено ефективність роботи моделей mT5 різних розмірів (small, base, large) щодо часу навчання, часу генерації перекладів і якості перекладу, оціненої метриками BLEU та chrF++. Результати показують, що більші моделі mT5 демонструють вищу якість перекладу, але потребують значно більше обчислювальних ресурсів. Результати дослідження підтверджують доцільність застосування моделей mT5 для українсько-англійського перекладу, навіть на типових обчислювальних системах.
Description
This study quantitatively investigates the impact of Transformer architecture size on the accuracy of Ukrainian-to-English machine translation using the multilingual mT5 model. The research evaluates three distinct mT5 versions (small, base, and large) by fine-tuning them on a subset of the HPLT v2 corpus. The technical implementation relied on a standard Python-based deep learning stack, utilizing PyTorch and Hugging Face (Transformers, Datasets) libraries for model management and training. Fine-tuning was executed on a high-performance GPU to handle the significant computational load, while inference speed was benchmarked on a typical consumer-grade GPU to reflect real-world deployment scenarios. Translation quality was assessed using the standard BLEU and chrF++ metrics. The results confirm a direct correlation between model size and translation quality, with larger models consistently achieving higher scores on both evaluation metrics. This improved accuracy, however, comes at the cost of significantly increased computational demand for both training and inference. Notably, when benchmarked against other large-scale, general-purpose translation models such as NLLB-200 (distilled-600M and distilled-1.3B), the fine-tuned mT5 variants demonstrated superior performance for Ukrainian-English translation, underscoring the benefits of task-specific adaptation. This study confirms the feasibility of using all three mT5 models for this task on typical computing systems, presenting users with a clear trade-off between desired translation quality and available resources.
Keywords
трансформер, оброблення природної мови, машинний переклад, нейронний машинний переклад, mT5, HPLT, BLEU, chrF++, NLLB-200, стаття, transformer, natural language processing, machine translation, neural machine translation, mT5, HPLT, BLEU, chrF++, NLLB-200
Citation
111