Exploration of multimodal approaches in image-to-audio synthesis

dc.contributor.advisorКузьменко, Дмитро
dc.contributor.authorБеймук, Володимир
dc.date.accessioned2024-10-31T09:07:25Z
dc.date.available2024-10-31T09:07:25Z
dc.date.issued2024
dc.description.abstractЦе дослідження зосереджено на вивченні різних підходів до генерації аудіо з зображень, розгляді їхньої поведінки та вдосконалюючи їхні можливості за допомогою перевірки окремих гіпотез. Воно включає аналіз та порівняння сучасних моделей, які використовуються в цій галузі. Значна увага приділяється моделям SpecVQGAN та IM2WAV, які демонструють новітні методи з використанням глибинного навчання для синтезу точного та послідовного аудіопотоку. Також розглядаються техніки регуляризації, і аналіз їхнього впливу на якість моделей. Важливість дослідження зумовлена потенційним застосуванням у таких областях, як підтримка людей із вадами зору, віртуальна реальність, освітні інструменти та виробництво звукових ефектів у фільмах чи відеоіграх. uk_UA
dc.identifier.urihttps://ekmair.ukma.edu.ua/handle/123456789/32111
dc.language.isouk uk_UA
dc.statusfirst published uk_UA
dc.subjectгенерація аудіо з зображень uk_UA
dc.subjectглибоке навчання uk_UA
dc.subjectгенеративні моделі uk_UA
dc.subjectтрансфореми uk_UA
dc.subjectтехніки регуляризації uk_UA
dc.subjectкурсова робота uk_UA
dc.titleExploration of multimodal approaches in image-to-audio synthesis uk_UA
dc.typeOther uk_UA
Files
Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Beimuk_Kursova_robota.pdf
Size:
1.24 MB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: