码迷,mamicode.com
首页 >  
搜索关键字:python爬虫 抓取数据    ( 2655个结果
Python爬取百度贴吧内容
参考资料:https://cuiqingcai.com/993.html 即 静觅 » Python爬虫实战二之爬取百度贴吧帖子 我最近在忙学校的一个小项目的时候涉及到NLP的内容。但是在考虑如何训练的时候却才懂什么叫巧妇难为无米之炊的滋味。中文语料库实在少的可怜,偶尔有一两个带标签的语料库,拿出一 ...
分类:编程语言   时间:2020-01-28 09:28:35    阅读次数:74
解决python爬虫requests.exceptions.SSLError: HTTPSConnectionPool(host='XXX', port=443)问题
爬虫时报错如下: requests.exceptions.SSLError: HTTPSConnectionPool(host='某某某网站', port=443): Max retries exceeded with url: /login/ (Caused by SSLError(SSLErro ...
分类:编程语言   时间:2020-01-27 13:43:26    阅读次数:549
python爬虫之字体反爬
一、什么是字体反爬? 字体反爬就是将关键性数据对应于其他Unicode编码,浏览器使用该页面自带的字体文件加载关键性数据,正常显示,而当我们将数据进行复制粘贴、爬取操作时,使用的还是标准的Unicode字符映射,解析后就是干扰性数据,以猫眼电影为例: 上图表明,浏览器正常渲染的数据在调试界面显示为错 ...
分类:编程语言   时间:2020-01-26 20:45:17    阅读次数:92
爬虫遇到的坑🕳
爬取猫眼电影排行,无法正常显示中文,出现乱码 response.text响应总是乱码 找了许多种方法,python爬虫解决gbk乱码问题、python爬虫的中文乱码问题? - 知乎 发现,在爬取百度[https://www.baidu.com/]时出现乱码,通过 import requests ur ...
分类:其他好文   时间:2020-01-26 19:00:09    阅读次数:114
Python爬虫:数据解析 之 xpath
资料: W3C标准:https://www.w3.org/TR/xpath/all/ W3School:https://www.w3school.com.cn/xpath/index.asp 菜鸟教程:https://www.runoob.com/xpath/xpath tutorial.html ...
分类:编程语言   时间:2020-01-25 23:35:25    阅读次数:110
Python爬虫:urllib库的基本使用
Python爬虫:urllib库的基本使用Python爬虫 请求网址获取网页代码import urllib.request url = "http://www.baidu.com" response = urllib.request.urlopen(url) data = response.read... ...
分类:编程语言   时间:2020-01-24 09:31:58    阅读次数:133
Python爬虫:urllib库的基本使用
请求网址获取网页代码 get带参数请求 直接这么写会报错: 原因是,网址里面包含了汉字,但是ascii码是没有汉字的,需要转义一下: ...
分类:编程语言   时间:2020-01-23 22:54:36    阅读次数:146
【Python爬虫】之爬取页面内容、图片以及用selenium爬取
下面不做过多文字描述: 首先、安装必要的库 # 安装BeautifulSoup pip install beautifulsoup4 # 安装requests pip install requests 其次、上代码!!! ①重定向网站爬虫h4文字 import requests from bs4 i ...
分类:编程语言   时间:2020-01-22 18:23:01    阅读次数:75
2019爬虫项目总结——我在项目中踩的那些坑
2019刚出校门,初到公司,最大的成就是完成了一个全球抓取数据的系统!简单介绍一下这个项目的实现思路以及在项目中踩过的坑,随时告诫自己以后尽量避免! 历时一个半月还多几天,终于通过交付测试了!项目是从全球范围内,通过Google,Bing,雅虎来抓取数据,由于服务器不是特别的好,并且考虑到会有很多的 ...
分类:其他好文   时间:2020-01-22 01:16:02    阅读次数:312
Python XPath抓取小说《三国演义》 《三》 多线程简单实例
增加多线程抓取数据,增加url判断,若数据已抓取,不在重复抓取 (可参考URL管理器) 需要再添加上队列,否则全开 from lxml import etree import requests import time import os import random import urllib3 fr ...
分类:编程语言   时间:2020-01-20 18:54:59    阅读次数:79
2655条   上一页 1 ... 30 31 32 33 34 ... 266 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!