码迷,mamicode.com
首页 >  
搜索关键字:python爬虫 抓取数据    ( 2655个结果
【python爬虫】selenium的三种等待
一、 强制等待 第一种也是最简单粗暴的一种办法就是强制等待sleep(xx),强制让闪电侠等xx时间,不管凹凸曼能不能跟上速度,还是已经提前到了,都必须等xx时间。 1 from selenium import webdriver 2 from time import sleep 3 driver ...
分类:编程语言   时间:2019-12-24 09:39:15    阅读次数:71
小白学 Python 爬虫(25):爬取股票信息
人生苦短,我用 Python 前文传送门: "小白学 Python 爬虫(1):开篇" "小白学 Python 爬虫(2):前置准备(一)基本类库的安装" "小白学 Python 爬虫(3):前置准备(二)Linux基础入门" "小白学 Python 爬虫(4):前置准备(三)Docker基础入门" ...
分类:编程语言   时间:2019-12-24 09:31:23    阅读次数:73
【Python】【爬虫】爬取酷狗音乐网络红歌榜
原理:我的上篇博客 import requests import time from bs4 import BeautifulSoup def get_html(url): ''' 获得 HTML ''' headers = { 'user-agent': 'Mozilla/5.0 (Windows ...
分类:编程语言   时间:2019-12-23 13:26:11    阅读次数:82
【python爬虫】动态html
一、反爬策略 1、请求头 ——user-agent ——referer ——cookie 2、访问频率限制 ——代理池 ——再用户访问高峰期进行爬取,冲散日志。12-13 7-10 ——设置等待时长。time.sleep(3) 3、ajax异步请求,用接口获取数据 4、能一次性获取的数据,绝不发送第 ...
分类:编程语言   时间:2019-12-22 20:24:50    阅读次数:127
python爬虫中遇到的问题以及解决方法
(1)运行后报错:“TypeError: cannot use a string pattern on a bytes-like” 原因:content用decode(‘utf-8’)进行解码,由bytes变成string。py3的urlopen返回的不是string是bytes。 解决方案:把’c ...
分类:编程语言   时间:2019-12-22 20:06:47    阅读次数:135
python爬虫—爬取英文名以及正则表达式的介绍
python爬虫—爬取英文名以及正则表达式的介绍 爬取英文名: 一. 爬虫模块详细设计 (1)整体思路 对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个csv文件中;再读取csv文件当中的每个英文名链接,采用循环的方法读取每一个英文名链接,根据每个英文名链接 ...
分类:编程语言   时间:2019-12-22 10:45:51    阅读次数:132
Python高级应用程序设计任务
一、主题式网络爬虫设计方案(15分) 1.主题式网络爬虫名称 《Python爬虫之国家统计局相关数据的爬取及分析》 2.主题式网络爬虫爬取的内容与数据特征分析 本次爬取内容为:国家统计局(http://www.stats.gov.cn/)中,改革开放以来GDP增长率、三大产业对GDP的贡献率以及三大 ...
分类:编程语言   时间:2019-12-21 15:36:11    阅读次数:77
Python高级应用程序设计任务
Python高级应用程序设计任务要求 用Python实现一个面向主题的网络爬虫程序,并完成以下内容: (注:每人一题,主题内容自选,所有设计内容与源代码需提交到博客园平台) 一、主题式网络爬虫设计方案(15分) 1.主题式网络爬虫名称 《Python爬虫之国家统计局相关数据的爬取及分析》 2.主题式 ...
分类:编程语言   时间:2019-12-21 15:34:46    阅读次数:97
Python爬虫基础——XPath语法的学习与lxml模块的使用
XPath与正则都是用于数据的提取,二者的区别是: 正则:功能相对强大,写起来相对复杂; XPath:语法简单,可以满足绝大部分的需求; 所以,如果你可以根据自己的需要进行选择。 一、首先,我们需要为Google浏览器配置XPath插件: 请自行学习,效果如下: 二、XPath的语法: 注意: XP ...
分类:编程语言   时间:2019-12-20 11:45:42    阅读次数:81
Python爬虫基础——re模块的提取和匹配
re是Python的一个第三方库。 为了能更直观的看出re的效果,我们先新建一个HTML网页文件(可直接复制): index.html OK,然后我们进入主题。 re主要有三个功能:提取、匹配、替换。 1、提取findall: 注意:返回的类型是列表 我们应如何取出上文index.html中的Ema ...
分类:编程语言   时间:2019-12-20 01:04:29    阅读次数:248
2655条   上一页 1 ... 36 37 38 39 40 ... 266 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!