python系列均基于python3.4环境 基本概念 html.parser的核心是HTMLParser类。工作的流程是:当你feed给它一个类似HTML格式的字符串时,它会调用goahead方法向前迭代各个标签,并调用对应的parse_xxxx方法提取start_tag,tag,data,com ...
分类:
编程语言 时间:
2016-03-31 14:31:43
阅读次数:
338
0.准备工作 1.相关教程 0.准备工作 1.相关教程 Python 爬虫系列教程:http://cuiqingcai.com/1052.html Python Web课程:http://www.cnblogs.com/moonache/p/5110322.html Python 中文参考文档:ht ...
分类:
编程语言 时间:
2016-03-29 16:38:45
阅读次数:
297
Python实现半自动发微博【用COOKIES代替模拟登录;用WAP版微博代替网页版微博;每次还要改post数据的URL。。。半半自动的感觉】微博的内容是从糗事百科抓取的最热段子以及某网站的每日晚安。#!/usr/bin/python
#coding=utf-8
importurllib
importurllib2
importtime
importrequ..
分类:
编程语言 时间:
2016-03-19 06:26:36
阅读次数:
235
一、爬虫框架Scarpy简介Scrapy 是一个快速的高层次的屏幕抓取和网页爬虫框架,爬取网站,从网站页面得到结构化的数据,它有着广泛的用途,从数据挖掘到监测和自动测试,Scrapy完全用Python实现,完全开源,代码托管在Github上,可运行在Linux,Windows,Mac和BSD平台上,
分类:
编程语言 时间:
2016-03-19 06:17:12
阅读次数:
223
Python抓数据写到EXCEL中。以前都是写到txt中然后再导入到excel。现在直接写到excel中。#coding=utf-8
importxlwt
importrequests
frombs4importBeautifulSoup
importsys
reload(sys)
sys.setdefaultencoding(‘utf8‘)
#打开excel文件
data=xlwt.Workbook()
#获取其中的一个shee..
分类:
编程语言 时间:
2016-03-16 19:35:57
阅读次数:
442
今天晚上弄了一个简单的爬虫,可以爬取网页的图片,现在现在做一下准备工作。 需要的库:urllib 和 re urllib库可以理解为是一个url下载器,其中的有两个重要的方法 urllib.urlopen()和urllib.read()这两个方法,具体使用可以在网上查到;re这个库提供对正则表达式支
分类:
编程语言 时间:
2016-03-11 01:12:18
阅读次数:
792
原文http://www.xgezhang.com/python_crawler_jingdong.html先上我的代码。参考了上面链接的文章#-*-coding:utf-8-*-
#!/usr/bin/python
importos
importurllib2
importurllib
importcookielib
importre
importsys
frombs4importBeautifulSoup
‘‘‘
编码方式的设置,在中文使用时..
分类:
编程语言 时间:
2016-03-08 00:40:52
阅读次数:
4567
#coding=utf-8
importrequests
frombs4importBeautifulSoup
importsys
reload(sys)
sys.setdefaultencoding(‘utf8‘)
r=requests.get(‘http://html-color-codes.info/color-names/‘)
html=r.text
#printhtml
soup=BeautifulSoup(html,‘html.parser‘)
trs=soup.find_all(‘tr‘)
f=..
分类:
编程语言 时间:
2016-03-08 00:37:03
阅读次数:
200
python+mongodb 在爬虫的过程中,抓到一个中文字段,encode和decode都无法正确显示 注:以下print均是在mongodb中截图显示的,在pythonshell中可能会有所不同 比如中文 “余年”,假设其为变量a 1. print a 结果如下: 使用type查询之后,显示的确
分类:
编程语言 时间:
2016-03-06 17:23:46
阅读次数:
169