基于表格法求解RL 中相关概念 含义 S state 状态(observe) A action 动作 R reward 奖励 P probability 状态转移概率 MDP Markov Decision Processes 马尔科夫决策过程(强化学习的基本框架) TD Temporal Diff ...
分类:
其他好文 时间:
2020-06-26 22:02:30
阅读次数:
52
最近参加完百度强化学习7日打卡营的学习班,初步了解了一些强化学习的算法。学习完后,试着开始玩玩atari的游戏,老师给了一个demo,https://github.com/PaddlePaddle/PARL/tree/develop/examples/DQN_variant,model,algori ...
分类:
其他好文 时间:
2020-06-26 21:56:31
阅读次数:
82
监督学习(Supervised Learning) 添加标签,手把手训练。 比如线性回归算法。 半监督学习(Semi-supervised Learning) 非监督学习(Unsupervised Learning) 通过有标签或没标签的数据集,让机器自己去找出规律。比如分类算法。 结构化学习(St ...
分类:
其他好文 时间:
2020-06-26 18:40:25
阅读次数:
55
blog翻译。原blog:https://keon.github.io/deep-q-learning/ 强化学习 强化学习是一种允许你创造能从环境中交互学习的AI agent 的机器学习算法。就跟我们学习骑自行车一样,这种类型的AI通过试错来学习。如上图所示,大脑代表AI agent并在环境中活动 ...
分类:
其他好文 时间:
2020-06-26 01:13:31
阅读次数:
156
一、事务的基本要素(ACID) 1、原子性(Atomicity):事务开始后所有操作,要么全部做完,要么全部不做,不可能停滞在中间环节。事务执行过程中出错,会回滚到事务开始前的状态,所有的操作就像没有发生一样。也就是说事务是一个不可分割的整体,就像化学中学过的原子,是物质构成的基本单位。 2、一致性 ...
分类:
其他好文 时间:
2020-06-25 23:04:00
阅读次数:
45
强化学习是近些年最火,最接近“真实情况”的深度学习方式。对比其他学习注重的是决策问题,通过智能体与周边环境的交互学会了如何能获得更多的奖励。 百度的paddle团队开源了强化学习PARL项目,该项目有几大特性: 在实际任务中尝试使用强化学习解决问题 快速调研下不同强化学习算法在同一个问题上的效果 搭 ...
分类:
其他好文 时间:
2020-06-25 11:57:15
阅读次数:
111
强化学习 Reinforce Learning 强化学习区别于机器学习的一点是,强化学习是来做决策的。根据环境的反馈,做出决策。 外界环境情况复杂,和环境的交互主要有 环境的状态 stat、智能体的动作、和对动作带来收益的评价 reward。 这里面涉及2个对象,agent 和 env。 agent ...
分类:
其他好文 时间:
2020-06-24 19:49:13
阅读次数:
65
3. SQL 优化规则 说起SQL优化,大家会像条件反射一样立即想到索引。但是,索引并非万能,它只是SQL优化的手段之一,并且作用有限,还有很多其他手段来提升SQL的性能。这些优化手段总结为如下几大类:共享SQL,避免排序,减少表的扫描,使用索引。 SQL调优是个比较复杂,也很频繁的工作。实际上,绝 ...
分类:
数据库 时间:
2020-06-23 19:39:29
阅读次数:
97
本章我们将从生物神经元开始学习人工神经网络。 生物神经元 哺乳动物的大脑有数十亿个神经元。神经元是人脑中相互连接的神经细胞。神经元参与处理和传递化学信号和电信号,它们接受信号输入,在细胞核中处理信号,如果信号强度大于某个阈值,就会把信号输出。 人类的大脑可以学习识别物体。例如,婴儿多次看到椅子,并听 ...
分类:
其他好文 时间:
2020-06-23 17:10:57
阅读次数:
48
linux性能问题我们都可以从top着手 top反应了服务器的负载,任务,cpu,内存及各进程的情况。 系统负载(load),反应服务器1,5,15分钟各个时间段的负载情况。 当load的值超出cpu总数的60%,系统负载过高。 这列表示总的进程数,可能出现的问题是zombie(僵尸)进程过多。 在 ...
分类:
系统相关 时间:
2020-06-23 15:50:39
阅读次数:
77