我校自动化学院谢胜利教授团队在《国家科学进展》发表研究论文-广东工业大学

首页

当前位置: 首页 >> 学术动态 >> 正文

我校自动化学院谢胜利教授团队在《国家科学进展》发表研究论文

2024年11月29日来源：自动化学院

近期，我校自动化学院谢胜利教授团队在《国家科学进展（英文）》上发表了“Learning the Continuous-Time Optimal Decision Law from Discrete-Time Rewards”的研究论文。青年学者陈辞教授为论文第一作者，谢胜利教授为共同通讯作者。这是广东工业大学首次以第一单位在该期刊发表论文。该论文被多个国际科技专栏所报道，如美国科学促进会平台(EurekAlert!|AAAS)、澳大利亚最新动态发布平台(MirageNews)、国际技术工程平台(TechXplore)、中国科学出版社(Science China Press)等。

成果简介

奖励是强化学习中的核心概念，寻找能够解释动态系统行为决策的奖励一直是一个公开挑战。该研究创新性地将状态导数反馈回学习过程，从而建立了基于离散时间奖励的强化学习分析框架。该框架与现有的积分强化学习框架有本质区别。在离散时间奖励的指导下，行为决策律的搜索过程分为两个阶段：前馈信号学习和反馈增益学习。