今天临时需要爬取一些双语资料 (尚未清洗) 需要充分利用 下边代码是想拿到Chinadaily网页中每篇双语新闻的链接,首先研究这些网页的网址和网页结构,包括翻页一般是首页网址加上_2,_3...等等。所以以下代码只是拿到链接。 执行python bi_news.py >url.txt 把想要的网址 ...
分类:
其他好文 时间:
2018-05-04 17:06:02
阅读次数:
225
存储使用mysql,增量更新东方头条全站新闻的标题 新闻简介 发布时间 新闻的每一页的内容 以及新闻内的所有图片。项目文件结构。 这是run.py的内容 这是settings.py 这是pipelines.py,里面有建表文件。里面有个mysql检查url是否存在的语句,其实是多余的。因为url已经 ...
分类:
其他好文 时间:
2018-05-03 16:34:16
阅读次数:
248
学无止境,精益求精 十年河东十年河西,莫欺少年穷 昨天是五一小长假归来上班的第一天,身体疲劳,毫无工作热情。于是就看看新闻,喝喝茶,荒废了一天 也就在昨天,康美同事张晶童鞋让我学习下IOC的理论及实现,毕竟是之前的好同事,好朋友,我也就抽时间百度了很多资料 在查阅网上资料的过程中,我发现大多技术篇幅 ...
分类:
其他好文 时间:
2018-05-03 14:29:22
阅读次数:
209
一、元素创建的三种方式 元素创建是为了提高用户的体验 1、第一种 缺陷:页面加载完毕时后,通过这种方式创建的元素会覆盖原有页面的所有内容 扩展:可以嵌入外部的代码(百度新闻代码为例) 2、第二种 案例1:点击按钮创建图片 案例2:点击按钮创建列表 3、第三种 步骤:创建 >追加(方法见后面) 案例1 ...
分类:
其他好文 时间:
2018-05-03 12:47:56
阅读次数:
207
最近看到新闻又提到了携号转网,工信部副部长表态,试点遇到了不少技术困难。 详见https://news.sina.cn/gn/2018-03-06/detail-ifyrztfz9409277.d.html?from=wap 我们老百姓不太懂技术,我们只想把一带一路和携号转网比较一下。携号转网只涉及 ...
分类:
其他好文 时间:
2018-05-02 21:07:07
阅读次数:
152
在Jmeter中,除了正则表达式可以用作关联,还有一种方式也可以做关联,那就是 XPath Extractor。它是利用xpath提取出关键信息,传递变量。 具体用法 添加一个后置处理器-XPath Extractor 实际操作 以腾讯新闻网为例,我们做一次演练。对腾讯新闻网我们发起一次请求,观察结 ...
分类:
其他好文 时间:
2018-05-02 19:07:29
阅读次数:
1345
但凡一件事,稍微有些重复。我就考虑怎么样用程序来实现它。 这里给各位程序员朋友分享如何每天给朋友定时微信发送”晚安“,故事,新闻,等等··· ···最好运行在服务器上,这样后台挂起来更方便。 准备: 微信号pip install wxpypip install requests 代码如下: 最终效果 ...
分类:
微信 时间:
2018-05-01 20:37:00
阅读次数:
529
1.选一个自己感兴趣的主题(所有人不能雷同)。 我选择了虎扑nba的体育新闻页面,与校园新闻版面类似,爬去50页 2.用python 编写爬虫程序,从网络上爬取相关主题的数据。 利用所学知识,导入要用的类 import requests from bs4 import BeautifulSoup i ...
分类:
其他好文 时间:
2018-04-30 22:20:19
阅读次数:
200
一、主题 本次只是简单的爬取广东轻工职业技术学院的校园新闻并将爬取信息生成词云进行分析 二、实现过程 1.在广东轻工职业技术学院官网中进入校园新闻模块,首先点击其中一条新闻,通过开发者工具(F12)分析获取新闻的标题,发布时间以及链接以字典news{}存放起来,并将新闻内容写到content.txt ...
分类:
编程语言 时间:
2018-04-30 18:10:21
阅读次数:
289
因为一直无法下载python中wordcloud的相关文件,于是便使用了网上词云的生成器。网址是:https://timdream.org/wordcloud 运行效果图: 此次爬取的是一个关于区块链的新闻内容,通过使用python爬取新闻页面的内容,然后使用网上的词云生成器生成词。 ...
分类:
其他好文 时间:
2018-04-30 18:09:41
阅读次数:
241