Застосування алгоритмів навчання Q-мереж для ітеративної задачі в'язня

dc.contributor.authorТкач, Назарійuk_UA
dc.date.accessioned2026-02-09T09:27:44Z
dc.date.available2026-02-09T09:27:44Z
dc.date.issued2025
dc.descriptionThis study is aimed at showcasing the performance of Deep Q-Networks (DQN) for the Iterated Prisoner’s Dilemma (IPD) with a compact episodic state embedding. The agent compresses the interaction context into a fixed-size vector and is trained against deterministic Axelrod strategies. Evaluation of normalized payoff, pairwise cooperation rate of strategies, and the learned behavior of the agent suggests the possibility of efficiently clustering existing strategies by latent learnable features. This may lead to advancements in both game theory and reinforcement learning. The limitations are outlined for future research, including recurrent-based and transformer-based policy-learning networks, stochastic opponents, and comparative analysis to the baseline performance. en_US
dc.description.abstractІтераційна дилема в’язня (IPD) є класичною моделлю співпраці[1]. У даній роботі представлено результати агента, навченого на основі алгоритму навчання з підкріпленням глибинних Q-мереж ("deep Q-network"[3], здатного формувати контекстно-залежні рішення за рахунок стислого подання стану. Модель тренувалася проти 72 детерміністичних стратегій у 200-ходових епізодах, реалізованих згідно з турнірами Аксельрода [1] в однойменній бібліотеці.uk_UA
dc.identifier.citationТкач Н. В. Застосування алгоритмів навчання Q-мереж для ітеративної задачі в'язня / Ткач Н. В. // Теоретичні та прикладні аспекти побудови програмних систем : праці 16 Міжнародної науково-практичної конференції, 23-24 листопада 2025 року, Київ / [за заг. ред. М. М. Глибовця, Т. В. Панченка та ін. ; Факультет інформатики Національного університету "Києво-Могилянська академія" та ін.]. - Київ : НаУКМА, 2025. - С. 63-64.uk_UA
dc.identifier.urihttps://ekmair.ukma.edu.ua/handle/123456789/38294
dc.language.isoukuk_UA
dc.publisherНаціональний університет "Києво-Могилянська академія"uk_UA
dc.relation.sourceТеоретичні та прикладні аспекти побудови програмних систем : праці 16 Міжнародної науково-практичної конференції, 23-24 листопада 2025 року, Київuk_UA
dc.statusfirst publisheduk_UA
dc.subjectітераційна дилема в’язня (IPD)uk_UA
dc.subjectDQN-агентuk_UA
dc.subjectdeep Q-network en_US
dc.subjectалгоритими навчанняuk_UA
dc.subjectматеріали конференціїuk_UA
dc.titleЗастосування алгоритмів навчання Q-мереж для ітеративної задачі в'язняuk_UA
dc.typeConference materialsuk_UA
Files
Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Tkach_Materialy_konferentsii.pdf
Size:
1.15 MB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: