Дослідження взаємозв’язків у даних з використанням штучних нейронних мереж : дисертація на здобуття наукового ступеня доктора філософії

Loading...
Thumbnail Image
Date
2024
Authors
Іванюк, Андрій
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Дисертація на здобуття наукового ступеня доктора філософії у галузі знань 11 "Математика та статистика" за спеціальністю 113 "Прикладна математика". — Національний університет "Києво-Могилянська академія", Київ, 2024. Ця дисертація зосереджена на вивченні зв’язків у даних за допомогою застосування штучних нейронних мереж. Ці зв’язки можуть бути представлені в різних формах, і моделюватись по-різному. Їх правильне моделювання є ключовим для успішного вирішення різноманітних завдань, таких як класифікація, регресія та генеративне моделювання. У сучасних нейронних мережах широко використовуються стандартні метрики для оцінки їх продуктивності, наприклад, класифікаційна точність, середньоквадратична похибка тощо. Проте, високі показники цих метрик не гарантують відсутності помилок або вразливостей у моделях. Моделі можуть видавати помилкові результати з високим рівнем впевненості, особливо при взаємодії з адверсаріальними прикладами — спеціально створеними вхідними даними, які вводять модель в оману. Це дослідження стосується цієї важливої проблеми шляхом детального вивчення кількісної оцінки невизначеності та стійкості нейронних мереж до адверсаріальних атак. Використовуючи адверсаріальні дані як інструмент, ця робота спрямована на поглиблення розуміння надійності моделей та розрореальних застосуваннях. Досліджуючи адверсаріальні взаємозв’язки та патерни в даних, ця робота має на меті використовувати їх як метрику генералізації для виявлення слабких місць моделей та оцінки їх здатності до узагальнення. Розуміння того, як моделі реагують на суперечливі збурення, відкриває унікальний погляд на їх внутрішню структуру та механізми прийняття рішень. Це дозволяє не лише виявляти вразливі місця, але й розробляти методи для їх усунення, що підвищує загальну надійність та ефективність моделей. У рамках цього дослідження вивчаються різні параметризації нейронних мереж для моделювання послідовностей та їх вплив на продуктивність моделей і стійкість до адверсаріальних атак. Особлива увага приділяється новим архітектурам та активаційним функціям, які можуть покращити здатність моделей до генералізації та їхню стійкість. Адверсаріальна стійкість розглядається як важлива метрика для виявлення слабких місць моделей та оцінки їх загальної ефективності. Дослідження охоплює ефективні параметризації для різних типів вхідних даних, включаючи зображення, мовні сигнали та текст. Застосовуються ці параметризації до різних завдань машинного навчання, таких як класифікація зображень, моделювання мови та регресія на основі латентних дифузійних моделей. Проведені експерименти спрямовані на виявлення того, як різні стратегії параметризації можуть покращити продуктивність моделей, зберігаючи або навіть підвищуючи їх стійкість до адверсаріальних атак. Отримані результати надають важливі знання для розробки більш надійних та здатних до генералізації моделей машинного навчання. Це сприяє прогресу у цій галузі шляхом виявлення оптимальних технік параметризації, які збалансовують продуктивність та стійкість, та можуть бути застосовані у широкому спектрі практичних задач. Дисертація складається з кількох розділів, кожен з яких охоплює ключові аспекти дослідження. Розроблення більш стійких систем на основі нейронних мереж, які можуть протистояти різноманітним атакам та забезпечувати стабільну продуктивність у Перший розділ, "Геометричні властивості адверсаріальних прикладів", надає глибоке визначення адверсаріальним атакам, класифікує їх за різними типами та досліджує їх геометричні властивості. Тут розглядаються різні методи створення адверсаріальних прикладів, такі як атаки за градієнтами, методи з обмеженням норми збурення та інші. Аналізуються механізми, за допомогою яких адверсаріальні атаки експлуатують вразливості моделей, та як ці вразливості пов’язані з геометрією простору ознак. Наступний розділ, "Моделювання сигналів за допомогою механізму уваги з ковзним середнім”, зосереджується на оцінці модифікованої функції уваги для ефективного моделювання послідовностей. Механізм уваги з ковзним середнім пропонується як альтернатива традиційним методам, таким як рекурентні нейронні мережі та стандартні механізми уваги. Розділ детально описує методологію, математичний апарат та алгоритмічну реалізацію запропонованого підходу. Проводиться оцінка його ефективності у завданнях моделювання мовленнєвих сигналів. Крім того, дисертація містить розділ "Аналіз дифузійного моделювання на прикладі аудіо сигналів", у якому досліджується використання латентних дифузійних моделей для синтезу аудіо. Розглянуто методи компресії ознак за допомогою маскованих та варіаційних автокодувальників, а також адаптацію компонентів попередньо навченої моделі AudioLDM2 для покращення генерації мовлення. Проведено оцінювання запропонованої моделі за метриками схожості голосу, точності класифікації емоцій та похибок розпізнавання мовлення, що дозволило виявити її переваги та напрямки для подальшого вдосконалення. Далі йде розділ "Багатовимірні активаційні функції", який досліджує нові види активаційних функцій, що моделюють взаємозв’язки між багатьма нейронами одночасно. Традиційні активаційні функції зазвичай діють на рівні окремого нейрона, але запропоновані багатовимірні функції дозволяють моделювати складніші залежності та взаємодії у нейронній мережі. Розглянуто декілька видів таких функцій, їх математичні властивості та вплив на навчання моделі. Емпіричні результати демонструють покращення продуктивності у різних завданнях машинного навчання, включаючи класифікацію, регресію та генеративні моделі. Розділ "Адверсаріальна стійкість" надає результати експериментів, що оцінюють стійкість розглянутих параметризацій до різних типів адверсаріальних атак. Тут проводиться порівняльний аналіз моделей з різними параметризаціями щодо їх здатності протистояти атакам, таким як PGD (Projected Gradient Descent) та інші. Надано уявлення про те, як різні стратегії параметризації та архітектурні рішення впливають на стійкість моделей до адверсаріальних атак, а також розглянуто методи для покращення цієї стійкості, такі як регуляризація, згладжування міток (англ. label smoothing) та змагальне навчання (англ. adversarial training). У розділ "Висновки" представлені загальні результати дисертації, підсумовано ключові висновки та їх вплив на сферу машинного навчання. Обговорено значення отриманих результатів для практичного застосування, а також запропоновано потенційні напрямки для майбутніх досліджень. Зокрема, обговорюється можливість подальшого розвитку багатовимірних активаційних функцій, дослідження нових механізмів уваги та глибше вивчення геометричних аспектів адверсаріальної стійкості. Проведені дослідження підтверджують ефективність використання розглянутих нейронних мережевих моделей для підвищення точності класифікації та демонструють складності, які виникають при адверсаріальному тренуванні. Загалом, ця дисертація робить вагомий внесок у розуміння та покращення стійкості нейронних мереж до адверсаріальних атак, пропонуючи нові підходи до параметризації та моделювання, які можуть бути застосовані у різних сферах машинного навчання. Результати цього дослідження можуть стати основою для розробки більш надійних та ефективних моделей, здатних забезпечувати високу продуктивність та безпеку у реальних застосуваннях. Проведені експерименти підтверджують, що використання розглянутих параметризацій може підвищити точність класифікації, але також виявляють складності, пов’язані з їх адверсаріальним тренуванням. Подальші дослідження у цьому напрямку можуть призвести до створення моделей, які не лише демонструють високу продуктивність, але й є стійкими до різноманітних атак, що є критично важливим у сучасному світі, де безпека та надійність моделей машинного навчання набувають все більшого значення.
Description
Dissertation to obtain the scientific degree of Doctor of Philosophy in the Field of Study 11 "Mathematics and statistics", Programme Subject Area 113 "Applied mathematics". — National University of Kyiv-Mohyla Academy, Kyiv, 2024. This dissertation focuses on studying relationships in data through the application of artificial neural networks. These relationships can be represented in various forms and modeled in different ways. Correct modeling of these relationships is key to successfully solving a variety of tasks, such as classification, regression, and generative modeling. In modern neural networks, standard metrics are widely used to evaluate their performance, such as classification accuracy, mean squared error, and so on. However, good values of these metrics do not guarantee the absence of errors or vulnerabilities in models. Models can produce erroneous results with a high level of confidence, especially when interacting with adversarial examples—specially crafted input data that mislead the model. This research addresses this important problem by conducting a detailed study of quantitative assessment of uncertainty and the robustness of neural networks to adversarial attacks. By using adversarial data as a tool, this work aims to deepen the understanding of model reliability and to develop more robust neural networkbased systems that can withstand various attacks and provide stable performance in real-world applications. By investigating adversarial relationships and patterns in data, this work aims to use them as a metric of generalization to identify model weaknesses and assess their ability to generalize. Understanding how models respond to conflicting perturbations offers a unique perspective on their internal structure and decisionmaking mechanisms. This allows not only for the identification of vulnerabilities but also for the development of methods to eliminate them, thereby enhancing the overall reliability and efficiency of models. As part of this research, various parameterizations of neural networks for sequence modeling are studied, as well as their impact on model performance and robustness to adversarial attacks. Special attention is paid to new architectures and activation functions that can improve models’ ability to generalize and their robustness. Adversarial robustness is considered an important metric for identifying model weaknesses and evaluating their overall effectiveness. The research encompasses effective parameterizations for different types of input data, including images, speech signals, and text. These parameterizations are applied to various machine learning tasks, such as image classification, language modeling, and regression based on latent diffusion models. The experiments conducted aim to identify how different parameterization strategies can improve model performance while maintaining or even enhancing their robustness to adversarial attacks. The results obtained provide important insights for developing more reliable and generalizable machine learning models. This advances the field by identifying optimal parameterization techniques that balance performance and robustness and can be applied in a wide range of practical tasks. The issertation consists of several chapters, each covering key aspects of the research. The first chapter, "Geometric Properties of Adversarial Examples", provides a deep definition of adversarial attacks, classifies them by different types, and explores their geometric properties. Various methods for creating adversarial examples are considered here, such as gradient-based attacks, methods with perturbation norm constraints, and others. The mechanisms by which adversarial attacks exploit model vulnerabilities are analyzed, as well as how these vulnerabilities are related to the geometry of the feature space. The next chapter, "Modeling Signals Using the Moving Average Attention Mechanism", focuses on evaluating a modified attention function for effective sequence modeling. The moving average attention mechanism is proposed as an alternative to traditional methods such as recurrent neural networks and standard attention mechanisms. The chapter provides a detailed description of the methodology, mathematical framework, and algorithmic implementation of the proposed approach. An evaluation of its effectiveness in speech signal modeling tasks is conducted. Additionally, the dissertation includes the chapter "Analysis of Diffusion Modeling on the Example of Audio Signals", in which the use of latent diffusion models for audio synthesis is explored. Methods of feature compression using masked and variational autoencoders are considered, as well as the adaptation of components from the pre-trained AudioLDM2 model to improve speech generation. An evaluation of the proposed model was conducted using metrics such as voice similarity, emotion classification accuracy, and speech recognition errors, which allowed for identifying its advantages and directions for further improvement. Next is the chapter "Multivariate Activation Functions", which explores new types of activation functions that model interconnections among multiple neurons simultaneously. Traditional activation functions usually operate at the level of individual neurons, but the proposed multivariate functions allow modeling more complex dependencies and interactions in the neural network. Several types of such functions are considered, their mathematical properties, and their impact on model training. Empirical results demonstrate performance improvements in various machine learning tasks, including classification, regression, and generative models. The chapter "Adversarial Robustness" presents the results of experiments that assess the robustness of the considered parameterizations to various types of adversarial attacks. A comparative analysis of models with different parameterizations is conducted regarding their ability to resist attacks such as PGD (Projected Gradient Descent) and others. Insights are provided into how different parameterization strategies and architectural decisions affect model robustness to adversarial attacks, and methods for improving this robustness are considered, such as regularization, label smoothing, and adversarial training. In the chapter "Conclusions", the general results of the dissertation are presented, key findings are summarized, and their impact on the field of machine learning is discussed. The significance of the obtained results for practical applications is considered, and potential directions for future research are proposed. In particular, the possibility of further development of multidimensional activation functions, exploration of new attention mechanisms, and deeper study of geometric aspects of adversarial robustness are discussed. The conducted studies confirm the effectiveness of using the considered neural network models to improve classification accuracy and demonstrate the complexities that arise during adversarial training. Overall, this dissertation makes a significant contribution to understanding and improving the robustness of neural networks to adversarial attacks by proposing new approaches to parameterization and modeling that can be applied in various fields of machine learning. The results of this research can serve as a oundation for developing more reliable and efficient models capable of ensuring high performance and security in real-world applications. The experiments conducted confirm that using the considered parameterizations can enhance classification accuracy but also reveal complexities associated with their adversarial training. Further research in this direction may lead to the creation of models that not only demonstrate high performance but are also robust to various attacks, which is critically important in today’s world where the security and reliability of machine learning models are becoming increasingly significant.
Keywords
адверсаріальна стійкість, адверсаріальні приклади, адверсаріальне очищення, механізм уваги, параметризація моделей, дифузійне моделювання, автокодувальники, обробка сигналів, алгоритми оптимізації, функції активації, регуляризація нейронні мережі, штучна нейронна мережа, алгоритм, згорткова нейронна мережа, параметри, похибка машинне навчання, класифікація, регресія, генеративне моделювання, комп’ютерний зір, обробка природної мови, аудіо моделювання, дисертація, adversarial robustness, adversarial examples, adversarial purification, attention mechanism, model parameterization, diffusion modeling, auto-encoders, signal processing, adaptive algorithms, optimization algorithms, activation functions, regularization, neural networks, artificial neural network, algorithm, convolutional neural network, parameters, error, machine learning, classification, regression, generative modeling, computer vision, natural language processing, audio modeling
Citation
Іванюк А. О. Дослідження взаємозв'язків у даних з використанням штучних нейронних мереж : дисертація на здобуття наукового ступеня доктора філософії / Іванюк Андрій Олегович ; наук. кер.: Крюкова Галина Віталіївна ; Міністерство освіти і науки України, Національний університет "Києво-Могилянська академія". - Київ : [б. в.], 2024. - 166 с.