码迷,mamicode.com
首页 > 编程语言 > 详细

python爬虫思路

时间:2018-01-17 00:46:40      阅读:200      评论:0      收藏:0      [点我收藏+]

标签:pre   lib   parser   rom   tuple   取数   urllib   元组   imp   

python2
爬虫:从网页上采取数据
爬虫模块:urllib,urllib2,re,bs4,requests,scrapy,xlml
1.urllib
2.request
3.bs4
4.正则re
5种数据类型
(1)数字Number
(2)字符串String
(3)列表List[] 中文在可迭代对象就是unicode对象
(4)元组Tuple()
(5)字典Set{}
爬虫思路:
1.静态 urlopen打开网页------获取源码read
2.requests(模块) get/post请求----获取源码 text()方法 content()方法(建议)
3.bs4 能够解析HTML和XML
#-- coding:utf-8 --
from bs4 import BeautifulSoup
#1
#html="<div>2018.1.8 14:03</div>"
#soup=BeautifulSoup(html,‘html.parser‘) #解析网页
#print soup.div
#2从文件中读取
html=‘‘
soup=BeautifulSoup(open(‘index.html‘),‘html.parser‘)
print soup.prettify()
4.获取所需信息

python爬虫思路

标签:pre   lib   parser   rom   tuple   取数   urllib   元组   imp   

原文地址:http://blog.51cto.com/xiaogongju/2061745

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!