搜索关键字：抓取数据，搜索到386个结果！码迷,mamicode.com！

Python 2.7_多进程获取简书专题数据（一）

学python几个月了正好练练手，发现问题不断提高，先从专题入手，爬取些数据，一开始对简书网站结构不熟悉，抓取推荐，热门，城市3个导航栏，交流发现推荐和热门是排序不同，url会重复，以及每个专题详情页三个类目最新评论，最新收录，热门也会重复做了下调整，代码执行完毕会返回所有专题的urls元组对象 ...

分类：编程语言时间：2017-02-12 16:57:27 阅读次数：224

使用Apache Flume抓取数据（1）

使用ApacheFlume抓取数据，怎么来抓取呢？不过，在了解这个问题之前，我们必须明确ApacheFlume是什么？一、什么是ApacheFlumeApacheFlume是用于数据采集的高性能系统，名字来源于原始的近乎实时的日志数据采集工具，现在广泛用于任何流事件数据的采集，支持从很多数据源聚合数..

分类：Web程序时间：2017-01-18 14:18:34 阅读次数：250

一次重构经历

最近做了挺多从不同的网页抓取数据的工作，重复多了之后，有了重构的想法，使用的语言是java。 1. 以前的做法：因为是一个功能性程序，所以把它当做了过称式程序，没有建立特别的类：而一些变量值也写死在程序中：用于获取时间的getBoardList()函数内部，通过正则表达式和遍历比较取出数据，返 ...

分类：其他好文时间：2017-01-17 19:50:49 阅读次数：195

scrapy在ubuntu上安装总结

此文档是本人学习时使用的，采用一个实例作为引导进行安装测试。实例下载地址如下： https://github.com/sans-serif/scrapy-german-news#introduction 解压之后为：scrapy-german-news-master 修改requirements. ...

分类：系统相关时间：2017-01-12 11:41:35 阅读次数：297

sqlalchemy中文乱码问题解决方案

本文参考http://firefish.blog.51cto.com/298258/112794/的解决方案问题：本文在Ubuntu上利用scrapy抓取数据写入mysql数据库时，用到sqlalchemy。但是写入数据库的中文全部为乱码，网上查了一通本以为是数据库编码的问题，折腾了一通原来是这 ...

分类：数据库时间：2017-01-03 19:31:31 阅读次数：337

python 爬虫

网页访问常用到库： requests（网页请求） BeautifulSoup（从网页抓取数据） selenium（模拟浏览器行为） PhantomJS（虚拟浏览器）定时爬取数据：断线重连解决方法：引入新函数reloading（） ...

分类：编程语言时间：2017-01-01 07:39:53 阅读次数：204

kafka shutdown停止关闭很慢问题的解决方案

kafka shutdown停止很慢问题在数据量大的时候，consumer一次抓取数据的数据很多，进入到业务处理的数据可能有很多，假设一次poll有1万条数据进入业务程序，而且业务程序是和poll绑定在一起线程同步执行的，假设平均每条数据，执行业务程序花费100ms，那么poll一次的数据，至 ...

分类：其他好文时间：2016-12-31 23:47:57 阅读次数：249

【asp.net爬虫】asp.NET分页控件抓取第n页数据 javascript:__doPostBack

最近在模拟HTTP请求抓取数据，但是服务器是asp.net开发的分页控件代码点击下一页其实是调用js方法通过抓包拼接请求postdata 结果服务器返回坑爹的，根本获取不到想要的第二页数据 ...

分类：编程语言时间：2016-12-29 20:00:51 阅读次数：920

深入Java基础（一）——基本数据类型及其包装类

这一系列打算慢慢地去接触源码，并且列出相关的题目，对于完全的初学者的话，我到时候会搜一套我认为比较好的培训机构的视频以及给些社区资料和相关博客咯。让我们一起开始思考，深入学习Java吧。这篇文章就数据...

分类：编程语言时间：2016-12-28 15:18:35 阅读次数：457

自定义 scrapy 爬虫的 requests

之前使用 scrapy 抓取数据的时候，默认是在逻辑中判断是否执行下一次请求比如：今天无意查看了 scrapy 的官方文档，可以使用 start_requests() 这个方法循环生成要爬取的网址使用 python 一定要简单粗暴，于是把我把之前代码换了如下方式注意：要注意的是重写 sta ...

分类：其他好文时间：2016-12-24 17:07:58 阅读次数：292

共386条上一页 1 ... 21 22 23 24 25 ... 39 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)