码迷,mamicode.com
首页 > 编程语言 > 详细

python爬虫

时间:2018-12-26 00:27:22      阅读:244      评论:0      收藏:0      [点我收藏+]

标签:提取   pytho   取数   jsonp   python3   python3.6   selenium   环境   windows环境   

根据特定的需求,抓取指定的数据

代替浏览器上网

  网页的特点:

    1、网页都有自己唯一的URL

    2、网页内容都是html结构

    3、使用的都是http或https协议

  爬虫步骤:

    1、给一个URL

    2、写程序,模拟浏览器访问URL

    3、解析内容,提取数据

  环境:

    windows环境、linux环境

    python3.6   64位

  使用的工具:

    1、库

      urllib \ requests \ bs4

    2、解析网页内容的知识

      正则表达式、bs4、xpath、jsonpath

    3、涉及到动态html

      selenium+phantomjs、chromeheadless

    4、scrapy框架

    5、scrapy-redis组件

    6、涉及到爬虫-反爬虫-反反爬虫的一些内容

      UA、代理、验证码、动态页面等

http协议

     

python爬虫

标签:提取   pytho   取数   jsonp   python3   python3.6   selenium   环境   windows环境   

原文地址:https://www.cnblogs.com/yellowhat/p/10176992.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!