强化学习基本要素
马尔科夫决策过程
策略学习(Policy Learning)
时序差分方法(TD method)
Q-Learning算法
Actor-Critic方法
DQN
DDPG
推荐系统强化学习建模
附录 ...
分类:
编程语言 时间:
2019-10-13 12:45:44
阅读次数:
105
图书使用图书分类号ISBN作为图书的ID 大英百科全书(Encyclopedia Britannica)可用于找寻关键词或关键词相关信息,便于构建准确的检索式: Knovel:可使用物理化学性质查找相对应的物质: Springer电子书中,使用国科大图书馆入口可以free download的电子书: ...
分类:
编程语言 时间:
2019-10-13 00:33:32
阅读次数:
108
20191222 师生关系 1. 在我十几年的读书生涯中,给我印象最深、对我影响最大的老师一定是我高中化学老师蒋HB。在蒋老师的教导下,我们班的化学在年级上一直名列前茅。全年级的学生都知道他、敬仰他,每次他上补习班都是座无虚席。蒋老师是一位特别好的老师,不仅是他的知识渊博、教导有方,更是他对学生认真 ...
分类:
其他好文 时间:
2019-10-12 12:46:03
阅读次数:
100
何为功能富集分析? 功能富集分析是将基因或者蛋白列表分成多个部分,即将一堆基因进行分类,而这里的分类标准往往是按照基因的功能来限定的。换句话说,就是把一个基因列表中,具有相似功能的基因放到一起,并和生物学表型关联起来。 何为GO和KEGG? 为了解决将基因按照功能进行分类的问题,科学家们开发了很多基 ...
分类:
其他好文 时间:
2019-10-11 20:33:34
阅读次数:
6264
马尔可夫决策过程 MDP 基于模型的动态规划方法(Model-Based,DP) 策略搜索 策略迭代 值迭代 无模型的强化学习方法(Model-Free) 蒙特卡洛方法(MC):效率不高,但是能够展现 model-free 类算法的特性; 时序差分方法(TD,Important):直接从 episo ...
分类:
其他好文 时间:
2019-10-08 23:58:32
阅读次数:
199
我的工程实践选题是《基于深度强化学习的智能控制系统设计》,通过搭建Tensorflow、ROS等深度学习和机器人仿真平台,将人工智能理论用于机器人、自动驾驶领域的决策与规划,通过深度强化学习来训练机器人的行为,实现航迹动态规划和智能避障等应用。可能用到的开发工具有Python,C/C++,Linux ...
分类:
其他好文 时间:
2019-10-08 22:25:17
阅读次数:
129
黄蜡石chrismatite的原岩均为硅质岩,各种原岩受到构造变动、火山活动、热液作用等影响,产生复杂的物理和化学变化,包括重结晶、热变质等,导致矿物成分及结构构造的变化,后受构造变动的影响,岩石露出地表,与地表酸性土壤环境长期接触,或在溪流中长期磨蚀,经历染色、磨圆,形成河谷中的籽料。 黄蜡石矿藏 ...
分类:
其他好文 时间:
2019-10-08 12:19:53
阅读次数:
86
一般认为翠榴石demantoite的形成条件是: (1)围岩组成应该是贫铝富铁,且附近有钙质碳酸盐出露地区,即有利于“纯度高”的钙铁榴石结晶环境。否则,若钙铝榴石端员分子比增多,2价Fe必将直接影响晶体折射率和色散等光学性能的降低,从而失去翠榴石作为优质宝石的特性; (2)形成部位较浅,较高的氧逸度 ...
分类:
其他好文 时间:
2019-10-07 21:36:49
阅读次数:
103
chrysopal金绿宝石,也称金绿玉。化学成分为BeAl2O4、晶体属正交(斜方)晶系的氧化物矿物。它位列名贵宝石,具有四个变种:猫眼,变石,变石猫眼和金绿宝石晶体。 金绿宝石本身就是较稀少的矿物,如果能切割成大颗粒的且颜色净度都比较好的宝石是十分珍贵的。 金绿宝石通常透明度较好,呈现黄或黄绿色, ...
分类:
其他好文 时间:
2019-10-07 09:53:18
阅读次数:
111
全连接神经网络:也叫多层感知器模型 BP不是神经网络,是训练神经网络的一种方法。 人脑大约800亿个神经元组成,这些神经元由突触与其他神经元相互连接,交换电信号和化学信号,大脑通过神经元之间的协作完成各种功能。神经元之间的连接关系是通过进化、生长发育和后天刺激形成的。 人工神经网络: 受动物神经系统 ...
分类:
其他好文 时间:
2019-10-05 18:44:57
阅读次数:
101