学python几个月了正好练练手,发现问题不断提高,先从专题入手,爬取些数据,一开始对简书网站结构不熟悉,抓取推荐,热门,城市3个导航栏,交流发现推荐和热门是排序不同,url会重复,以及每个专题详情页三个类目最新评论,最新收录, 热门也会重复 做了下调整,代码执行完毕会返回所有专题的urls元组对象 ...
分类:
编程语言 时间:
2017-02-12 16:57:27
阅读次数:
224
使用ApacheFlume抓取数据,怎么来抓取呢?不过,在了解这个问题之前,我们必须明确ApacheFlume是什么?一、什么是ApacheFlumeApacheFlume是用于数据采集的高性能系统,名字来源于原始的近乎实时的日志数据采集工具,现在广泛用于任何流事件数据的采集,支持从很多数据源聚合数..
分类:
Web程序 时间:
2017-01-18 14:18:34
阅读次数:
250
最近做了挺多从不同的网页抓取数据的工作,重复多了之后,有了重构的想法,使用的语言是java。 1. 以前的做法: 因为是一个功能性程序,所以把它当做了过称式程序,没有建立特别的类: 而一些变量值也写死在程序中: 用于获取时间的getBoardList()函数内部,通过正则表达式和遍历比较取出数据,返 ...
分类:
其他好文 时间:
2017-01-17 19:50:49
阅读次数:
195
此文档是本人学习时使用的,采用一个实例作为引导进行安装测试。 实例下载地址如下: https://github.com/sans-serif/scrapy-german-news#introduction 解压之后为:scrapy-german-news-master 修改requirements. ...
分类:
系统相关 时间:
2017-01-12 11:41:35
阅读次数:
297
本文参考http://firefish.blog.51cto.com/298258/112794/的解决方案 问题: 本文在Ubuntu上利用scrapy抓取数据写入mysql数据库时,用到sqlalchemy。但是写入数据库的中文全部为乱码,网上查了一通本以为是数据库编码的问题,折腾了一通原来是这 ...
分类:
数据库 时间:
2017-01-03 19:31:31
阅读次数:
337
网页访问常用到库: requests(网页请求) BeautifulSoup(从网页抓取数据) selenium(模拟浏览器行为) PhantomJS(虚拟浏览器) 定时爬取数据: 断线重连解决方法: 引入新函数reloading() ...
分类:
编程语言 时间:
2017-01-01 07:39:53
阅读次数:
204
kafka shutdown停止很慢问题 在数据量大的时候,consumer一次抓取数据的数据很多,进入到业务处理的数据可能有很多, 假设一次poll有1万条数据进入业务程序,而且业务程序是和poll绑定在一起线程同步执行的,假设平均每条数据,执行业务程序花费100ms, 那么poll一次的数据,至 ...
分类:
其他好文 时间:
2016-12-31 23:47:57
阅读次数:
249
最近在模拟HTTP请求抓取数据,但是服务器是asp.net开发的 分页控件代码 点击下一页其实是调用js方法 通过抓包拼接请求postdata 结果服务器返回 坑爹的,根本获取不到想要的第二页数据 ...
分类:
编程语言 时间:
2016-12-29 20:00:51
阅读次数:
920
这一系列打算慢慢地去接触源码,并且列出相关的题目,对于完全的初学者的话,我到时候会搜一套我认为比较好的培训机构的视频以及给些社区资料和相关博客咯。让我们一起开始思考,深入学习Java吧。这篇文章就数据...
分类:
编程语言 时间:
2016-12-28 15:18:35
阅读次数:
457
之前使用 scrapy 抓取数据的时候 ,默认是在逻辑中判断是否执行下一次请求 比如: 今天无意查看了 scrapy 的官方文档,可以使用 start_requests() 这个方法循环生成要爬取的网址 使用 python 一定要简单粗暴,于是把我把之前代码换了如下方式 注意:要注意的是重写 sta ...
分类:
其他好文 时间:
2016-12-24 17:07:58
阅读次数:
292