码迷,mamicode.com
首页 > 编程语言 > 详细

python爬虫常用的库

时间:2018-12-28 12:03:29      阅读:177      评论:0      收藏:0      [点我收藏+]

标签:file   nbsp   网页   request   lib   urllib2   框架   mysq   mysql   

1,请求:requests

   requests.get(url, headers)

   requests.post(url, data=data, files=files)

   urllib模块:

   Python2

   import urllib2

   response = urllib2.urlopen(‘http://www.baidu.com‘);

 

   Python3

   import urllib.request

   response =urllib.request.urlopen(‘http://www.baidu.com‘);

2,解析:

  lxml (解析网页)

  from lxml import etree

  # 获取请求网页数据

  html = etree.HTML(text)

3,存储:

  mongodb数据库

  mysql数据库

  redis数据库

4,工具:

  selenium自动化工具

5,框架:

  scrapy和scrapy-redis

python爬虫常用的库

标签:file   nbsp   网页   request   lib   urllib2   框架   mysq   mysql   

原文地址:https://www.cnblogs.com/hellohorld/p/10189679.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!