学习又称再励学习、评价学习或增强学习,其基本原理是,如果智能体的某个行为策略导致环境产生正的奖赏(强化信号),那么智能体以后产生这个行为策略的趋势便会加强。
学习又称再励学习、评价学习或增强学习,其基本原理是,如果智能体的某个行为策略导致环境产生正的奖赏(强化信号),那么智能体以后产生这个行为策略的趋势便会加强。
发布时间:2024-06-27 13:34:15
学习又称再励学习、评价学习或增强学习,其基本原理是,如果智能体的某个行为策略导致环境产生正的奖赏(强化信号),那么智能体以后产生这个行为策略的趋势便会加强。