码迷,mamicode.com
首页 >  
搜索关键字:爬虫 scrapy    ( 11768个结果
python核心编程中网络爬虫的例子
1 #!/usr/bin/env python 2 3 import cStringIO # 4 import formatter # 5 from htmllib import HTMLParser ...
分类:编程语言   时间:2014-07-22 22:58:15    阅读次数:284
BeautifulSoup下Unicode乱码解决
今天在用scrapy爬某个网站的数据,其中DOM解析我用的是BeautifulSoup,速度上没有XPath来得快,不过因为用了习惯了,所以一直用的bs,版本是bs4不过在爬取过程中遇到了一些问题,其中一个是Unicode转码问题,这也算是python中一个著名问题了。我遇到的算是Beautiful...
分类:其他好文   时间:2014-07-22 22:53:55    阅读次数:229
(转)Scrapy安装介绍 windows环境下---
一、 Scrapy简介Scrapy is a fast high-level screen scraping and web crawling framework, used to crawl websites and extract structured data from their pages...
分类:Windows程序   时间:2014-07-19 19:15:58    阅读次数:489
数据采集类
爬虫,又称蜘蛛,是从别的网站抓取资源的一种方法,C#.NET使用爬虫的方法如下:protected string GetPageHtml(string url){string pageinfo;try{WebRequest myreq = WebRequest.Create(url);WebResp...
分类:其他好文   时间:2014-07-19 18:15:25    阅读次数:180
抓取scrapy中文文档 第一个Scrapy项目实现
使用Scrapy这个python的网络爬虫框架抓取Scrapy中文文档开发第一步:新建项目scrapy startproject myfirst目录结构:myfirst│ scrapy.cfg Scrapy项目配置文件│└─myfirst Scrapy项目代码存放目...
分类:其他好文   时间:2014-07-19 16:00:43    阅读次数:207
Scrapy学习笔记
所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。不过由于一个网站的网页很多,而我们又不可能事先知道所有网页的URL地址,所以,如何保证我们抓取到了网站的所有HTML页面就是一个有待考究的问题了。一般的方法是,定义一个入口...
分类:其他好文   时间:2014-07-19 15:13:58    阅读次数:241
解决Scrapy shell启动出现UnicodeEncodeError问题
windows 命令行编码是cp936,而D:\Python27\Scripts\scrapy脚本编码是Unicode编码顾在命令行启动会出现编码问题解决办法:修改D:\Python27\Scripts\ 下的scrapy文件,这个文件即scrapy命令的程序文件,加上如下代码即可:import s...
分类:其他好文   时间:2014-07-19 14:21:14    阅读次数:209
(转)python下很帅气的爬虫包 - Beautiful Soup 示例
官方文档地址:http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.htmlBeautiful Soup 相比其他的html解析有个非常重要的优势。html会被拆解为对象处理。全篇转化为字典和数组。相比正则解析的爬虫,省略了学习正...
分类:编程语言   时间:2014-07-18 11:35:42    阅读次数:287
运用python抓取博客园首页的全部数据,并且定时持续抓取新发布的内容存入mongodb中
运用python抓取博客园首页的全部数据,并且定时持续抓取新发布的内容存入mongodb中...
分类:数据库   时间:2014-07-17 17:14:21    阅读次数:292
Hive架构层面优化之四 常用复杂/低效的统计从源上给出,以避免上层作业过多计算
案例一:trackinfo,基础表处理常用的低性能UDF背景描述:日志信息10分钟加载一次到实时日志表trackreal中(按小时分区),为了保证实时性,在加载的过程中并没有做任何的过滤处理,加载到trackreal表后再过滤非法数据、爬虫数据等,生成按天增量日志表trackinfo,然后根据不同的...
分类:其他好文   时间:2014-07-17 13:09:44    阅读次数:226
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!