强化学习下最新的文章 - 极术社区 - 连接开发者与智能计算生态

强化学习

强化学习（英语：Reinforcement learning，简称 RL）是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。

关注标签

关注数

3

内容数

508

提问题写文章

标签主页标签问答标签文章

相关标签

标签文章

最新的 · 最热的

深度学习与先进智能决策 · 2020年03月25日

【ICLR2020】通过强化学习和稀疏奖励进行模仿学习

论文题目：SQIL: Imitation Learning via Reinforcement Learning with Sparse Rewards

0 阅读 4.2k
深度学习与先进智能决策 · 2020年03月25日

【5分钟 Paper】Reinforcement Learning with Deep Energy-Based Policies

论文题目：Reinforcement Learning with Deep Energy-Based Policies

0 阅读 3.4k
深度学习与先进智能决策 · 2020年03月25日

腾讯 “绝悟”论文披露技术细节。

【论文阅读】Mastering Complex Control in MOBA Games with Deep Reinforcement Learning

0 阅读 4.5k
深度学习与先进智能决策 · 2020年03月25日

基于Stochastic Policy的深度强化学习方法

在开始说基于Stochastic Policy的方法之前，我们需要了解一下Policy Gradient的方法。在Policy Gradient里面有一个非常重要...

0 阅读 2.2k
深度学习与先进智能决策 · 2020年03月25日

强化学习中策略梯度算法

在强化学习中的值函数近似算法文章中有说怎么用参数方程去近似state value ，那policy能不能被parametrize呢？其实policy可...

0 阅读 2.2k
深度学习与先进智能决策 · 2020年03月25日

强化学习中的值函数近似算法

在开始说值函数近似方法之前，我们先回顾一下强化学习算法。强化学习算法主要有两大类Model-based 的方法和Model-free 的方...

0 阅读 2.9k
深度学习与先进智能决策 · 2020年03月25日

强化学习中的无模型控制

在上一篇文章强化学习中的无模型预测中，有说过这个无模型强化学习的预测问题，通过TD、n-step TD或者MC的方法能够获得值函...

0 阅读 2.3k
深度学习与先进智能决策 · 2020年03月25日

强化学习中的无模型预测

在大多是强化学习(reinforcement learning RL)问题中，环境的model都是未知的，也就无法直接做动态规划。一种方法是去学MDP...

0 阅读 3k
深度学习与先进智能决策 · 2020年03月25日

动态规划与策略迭代、值迭代

上一节我们说了马尔可夫决策过程，它是对完全可观测的环境进行描述的，也就是观测到的内容完整决定了决策所需要的特征。马...

0 阅读 4.2k
深度学习与先进智能决策 · 2020年03月25日

马尔可夫决策过程与贝尔曼方程

马尔可夫决策过程 (Markov Decision Process，MDP)是序贯决策(sequential decision)的数学模型，一般用于具备马尔可夫性的...

0 阅读 4.1k
深度学习与先进智能决策 · 2020年03月25日

手把手教你强化学习 (一) 强化学习基本概要 (下)

上节聊完了这个强化学习从直观上的一些理解。以及它和其他的机器学习方法的一些异同点。这一节来唠唠强化学习中的一些基本...

0 阅读 3.5k
深度学习与先进智能决策 · 2020年03月25日

手把手教你强化学习 (一) 强化学习基本概要 (上)

在19年4月，有写过一篇强化学习的入门直观简介。强化学习通俗入门简介(一)。感兴趣的可以看一下，如果知道一些基本概念的话...

2 阅读 4.3k
深度学习与先进智能决策 · 2020年03月25日

基于强化学习的倒立摆控制策略Matlab实现(附代码) 二刷

本文将之前的一篇基于强化学习的倒立摆控制策略Matlab实现文章再次进行了扩充。

0 阅读 4.3k
深度学习与先进智能决策 · 2020年03月25日

强化学习通俗入门简介(一)

什么是强化学习(Reinforcement Learning)？他和监督学习有什么区别？这里我将从监督学习切入，来用几篇文章解释清楚强化学...

0 阅读 3.1k
深度学习与先进智能决策 · 2020年03月25日

【5分钟 Paper】(TD3) Addressing Function Approximation Error in Actor-Critic Methods

论文题目：Addressing Function Approximation Error in Actor-Critic Methods

1 阅读 2.6k
深度学习与先进智能决策 · 2020年03月25日

【5分钟 Paper】Continuous Control With Deep Reinforcement Learning

论文题目：Continuous Control With Deep Reinforcement Learning

1 阅读 2.1k
深度学习与先进智能决策 · 2020年03月25日

【5分钟 Paper】Deterministic Policy Gradient Algorithms

stochastic policy的方法由于含有部分随机，所以效率不高，方差大，采用deterministic policy方法比stochastic policy的采...

1 阅读 2k
深度学习与先进智能决策 · 2020年03月25日

Trust Region Policy Optimization (TRPO) 背后的数学原理

本文是自己的TRPO算法学习笔记，在数学原理推导核心部分附有自己的理解与解释。整篇文章逻辑清晰，思路顺畅。有想推导的同...

0 阅读 3.2k
深度学习与先进智能决策 · 2020年03月25日

【5分钟 Paper】Asynchronous Methods for Deep Reinforcement Learning

论文题目：Asynchronous Methods for Deep Reinforcement Learning

0 阅读 2.1k
深度学习与先进智能决策 · 2020年03月25日

【5分钟 Paper】Prioritized Experience Replay

Experience replay能够让强化学习去考虑过去的一些经验，在【1】这篇文章之前通常采用随机采样的方式在记忆库中采样。但是...

0 阅读 2.1k

上一页
1
…
19
20
21
22
23
下一页

本月贡献榜

极术微信服务号

关注极术微信号
实时接收点赞提醒和评论通知

安谋科技学堂公众号

关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源

安谋科技招聘公众号

关注安谋科技招聘
实时获取安谋科技中国职位信息