文本分析概念 停用词 语料中大量出现, 无用数据, 如下类似的这种词语 Tf - 词频统计 TF 的计算方式有很多, 最常见的用 某词文章中出现次数 / 文章总词数 idf - 逆文档频率 TF - idf 关键词提取 相似度 分词 语料库 词频 词频向量 整体流程 语料清洗 (去掉停用词, 去掉大 ...
分类:
其他好文 时间:
2019-11-18 16:56:51
阅读次数:
240
``` import requests from bs4 import BeautifulSoup response = requests.get("https://www.autohome.com.cn/news/") # 1. content /text 的区别 # print(response ...
分类:
其他好文 时间:
2019-11-17 22:19:39
阅读次数:
100
11月14日小游戏开发圈子,有一条重磅新闻:“微信小游戏联合游戏引擎厂商,推出引擎插件功能,可为小游戏提升0.5~2秒的启动时间”。 引擎插件是个什么东西? 昨天有不少人在问晓衡:“引擎插件到底是个什么东西?”、“又要让我学习新东西吗?”、“引擎插件是怎么加速的,不太明白?” ... 晓衡也在第一时 ...
分类:
微信 时间:
2019-11-17 10:20:45
阅读次数:
143
鸿蒙发布,老兵戴辉为你细数一部华为操作系统28年史 https://www.ijiwei.com/html/news/newsdetail?source=pc&news_id=725007 爱集微·08-10 12:31·数码 来源: 上观新闻 一部华为发展史,也是一部可歌可泣的操作系统发展史。 8 ...
分类:
其他好文 时间:
2019-11-17 01:45:38
阅读次数:
713
恢复内容开始 据新闻报道数学天才陶哲轩和3个物理学家研究出一个只用特征值就可以计算矩阵特征向量的公式, 我感觉很有趣, 这应该能够应用在很多领域中, 所以仔细研究了一波。研究公式耗费了我大半天, 我把所有的equation都推导了一遍, 也给出了一些我的看法, 现在把它们总结出来, 方便后人参考. ...
分类:
Web程序 时间:
2019-11-16 23:26:24
阅读次数:
177
11月13日傍晚,腾讯公布了第三季度财务数据。不出意外,在游戏版号的影响消除之后,游戏业务再次成为拉动腾讯业绩增长的发动机,网络游戏收入同比增长11%至286亿元。
数字内容、广告等等业务也表现不错。其中,受视频及音乐服务订购账户数增加的带动,腾讯收费增值服务订购账户数同比增长11%至1.706亿;... ...
分类:
其他好文 时间:
2019-11-15 22:11:56
阅读次数:
154
直接上核心代码,其实官网介绍的很详细: var pageSize = 5;//每次请求新闻的条数 flow.load({ elem: '#newsList' //指定列表容器 ,scrollElem: '#newsList'//滚动条所在元素 ,done: function(page, next){ ...
分类:
其他好文 时间:
2019-11-15 09:15:38
阅读次数:
150
数据来源 通过爬虫,爬取腾讯新闻三个分类每个分类大约1000条左右数据,存入excel 以上是大体的数据,三列分别为title、content、class;由于这里讲的的不是爬虫,爬虫部分省略 项目最终结构 其中主要逻辑在native_bayes.py文件中实现,utils.py为部分工具函数,tr ...
分类:
其他好文 时间:
2019-11-12 20:14:04
阅读次数:
192
今天又一次被导师训了,怎么也达不到他的要求,好像我俩不在一条线上。所以现在重新整理一遍思路,继续走。 我认为重点还是主题追踪这一块,但是主题追踪的结果以及显示是个问题,目前还是打算做出来当天最热的前几条新闻的热度曲线,之后进行每个新闻的数据关联关系随着日期的变化而不断变化(语义分析)。 先界面在功能 ...
分类:
其他好文 时间:
2019-11-12 13:05:55
阅读次数:
65
最近项目上遇到在微信小程序里需要显示新闻内容,新闻内容是通过接口读取的服务器中的富文本内容,是html格式的,小程序默认是不支持html格式的内容显示的,那我们需要显示html内容的时候,就可以通过wxParse来实现。 首先我们在github上下载wxParse icindy/wxParse wx ...
分类:
微信 时间:
2019-11-12 12:57:26
阅读次数:
120