首先,回顾一元模型,然后引出贝叶斯学派的一元模型; 如图示: 一元模型中,不存在潜在主题,我们产生word的过程,相当于投骰子(V面);那么整个文档集的分布是:(文档直接独立,word之间独立)p(W)=∏dD∏iNp(wi)=∏dD∏vVp(wv)cvp(W)=∏dD∏iNp(wi)=∏dD∏vV ...
分类:
其他好文 时间:
2020-01-04 20:47:15
阅读次数:
74
在实现一些功能需求时,往往会遇到一些等待进行或者依靠某个目的结束后才执行一些相关的操作。 例如:某年某月某日的某间学校正在军训中,这个学校一共有n个班,在某日内(24小时)所有班级要完成各自班级规定的体能训练。假设某班在某时进行一项体能训练,此班共有n人,排队分为n行 x n列,以下图表示: 以上例 ...
分类:
其他好文 时间:
2020-01-04 20:38:56
阅读次数:
78
上篇文章,介绍了我2012年实现的一个内容聚合网站,通过正则表达式抽取网页内容,并提供了代码实现。 从网页中通过正则表达式获取标题、URL和发表时间 本文将进一步介绍其实现过程: (1)网页结构分析 在2012年左右,JavaScript还远没有今天这么强大,当时html是网页的骨架,css进行风格 ...
分类:
Web程序 时间:
2020-01-04 20:28:54
阅读次数:
114
什么是AOP? AOP:Aspect Oriented Programming,中文翻译为”面向切面编程“。面向切面编程是一种编程范式,它作为OOP面向对象编程的一种补充,用于处理系统中分布于各个模块的横切关注点,比如事务管理、权限控制、缓存控制、日志打印等等。AOP采取横向抽取机制,取代了传统纵向 ...
分类:
编程语言 时间:
2020-01-04 18:20:51
阅读次数:
79
个人理解: 句子相似性判断、情感分析、实体识别、智能问答,本质基本上都是分类任务。 阅读理解(抽取式、回答式、完形填空)是逐个候选项的分类问题处理。 参考 https://github.com/chineseGLUE/chineseGLUE https://github.com/CLUEbenchm ...
分类:
其他好文 时间:
2020-01-03 22:51:51
阅读次数:
730
为了从几个网站抽取内容,聚合到一起。我于2012年写了一个程序,从多个网站通过结构化方法抽取内容。然后写入数据库,形成一个网站。 (1)正则表达式抽取 首先,从数据库中读取内容抽取规则: ArrayList<RuleBean> rbList = ruleDao.QueryAllRule(); 表结构 ...
分类:
Web程序 时间:
2020-01-03 19:46:50
阅读次数:
179
GNE(GeneralNewsExtractor)是一个通用新闻网站正文抽取模块,输入一篇新闻网页的 HTML, 输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、网易新闻、游民星空、 观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新... ...
分类:
Web程序 时间:
2020-01-03 14:03:12
阅读次数:
106
1. HTTP请求默认值【添加 - 配置原件 - HTTP请求默认值】 我们在请求同一个项目的接口时,往往这些接口的【IP、端口号、编码方式、协议】等是相同的,甚至部分参数也是相同的。这时候,如果接口数量巨大,我们可以通过设置【HTTP请求默认值】来将这些相同的参数值抽取出来统一设置,而在单个接口中 ...
分类:
Web程序 时间:
2020-01-03 12:19:59
阅读次数:
126
柯里化 在理论计算机科学中,柯里化提供了在简单的理论模型中,比如:只接受一个单一参数的lambda演算中,研究带有多个参数的函数的方式。 实际上就是单可变参数的情况下我们进行一次逻辑抽取,这是模块化代码的一个重要思路。 package lambdasinaction.chap14; import j ...
分类:
其他好文 时间:
2020-01-02 20:54:50
阅读次数:
106
spring使用@Transactional开启事务,而且该注解使用propagation属性来指定事务的传播级别 @Transactional(propagation =Propagation.REQUIRES_NEW) // 开启一个新事务 使用REQUIRES_NEW就会开启一个新的事务吗? ...
分类:
编程语言 时间:
2020-01-01 20:31:41
阅读次数:
771