Застосування алгоритмів навчання Q-мереж для ітеративної задачі в'язня

Ткач, Назарій

Застосування алгоритмів навчання Q-мереж для ітеративної задачі в'язня

dc.contributor.author	Ткач, Назарій	uk_UA
dc.date.accessioned	2026-02-09T09:27:44Z
dc.date.available	2026-02-09T09:27:44Z
dc.date.issued	2025
dc.description	This study is aimed at showcasing the performance of Deep Q-Networks (DQN) for the Iterated Prisoner’s Dilemma (IPD) with a compact episodic state embedding. The agent compresses the interaction context into a fixed-size vector and is trained against deterministic Axelrod strategies. Evaluation of normalized payoff, pairwise cooperation rate of strategies, and the learned behavior of the agent suggests the possibility of efficiently clustering existing strategies by latent learnable features. This may lead to advancements in both game theory and reinforcement learning. The limitations are outlined for future research, including recurrent-based and transformer-based policy-learning networks, stochastic opponents, and comparative analysis to the baseline performance.	en_US
dc.description.abstract	Ітераційна дилема в’язня (IPD) є класичною моделлю співпраці[1]. У даній роботі представлено результати агента, навченого на основі алгоритму навчання з підкріпленням глибинних Q-мереж ("deep Q-network"[3], здатного формувати контекстно-залежні рішення за рахунок стислого подання стану. Модель тренувалася проти 72 детерміністичних стратегій у 200-ходових епізодах, реалізованих згідно з турнірами Аксельрода [1] в однойменній бібліотеці.	uk_UA
dc.identifier.citation	Ткач Н. В. Застосування алгоритмів навчання Q-мереж для ітеративної задачі в'язня / Ткач Н. В. // Теоретичні та прикладні аспекти побудови програмних систем : праці 16 Міжнародної науково-практичної конференції, 23-24 листопада 2025 року, Київ / [за заг. ред. М. М. Глибовця, Т. В. Панченка та ін. ; Факультет інформатики Національного університету "Києво-Могилянська академія" та ін.]. - Київ : НаУКМА, 2025. - С. 63-64.	uk_UA
dc.identifier.uri	https://ekmair.ukma.edu.ua/handle/123456789/38294
dc.language.iso	uk	uk_UA
dc.publisher	Національний університет "Києво-Могилянська академія"	uk_UA
dc.relation.source	Теоретичні та прикладні аспекти побудови програмних систем : праці 16 Міжнародної науково-практичної конференції, 23-24 листопада 2025 року, Київ	uk_UA
dc.status	first published	uk_UA
dc.subject	ітераційна дилема в’язня (IPD)	uk_UA
dc.subject	DQN-агент	uk_UA
dc.subject	deep Q-network	en_US
dc.subject	алгоритими навчання	uk_UA
dc.subject	матеріали конференції	uk_UA
dc.title	Застосування алгоритмів навчання Q-мереж для ітеративної задачі в'язня	uk_UA
dc.type	Conference materials	uk_UA

Files

Original bundle

Now showing 1 - 1 of 1

Name:: Tkach_Materialy_konferentsii.pdf
Size:: 1.15 MB
Format:: Adobe Portable Document Format

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 1.71 KB
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

16 міжнародна науково-практична конференція
Докторська школа імені родини Юхименків