参考资料:https://cuiqingcai.com/993.html 即 静觅 » Python爬虫实战二之爬取百度贴吧帖子 我最近在忙学校的一个小项目的时候涉及到NLP的内容。但是在考虑如何训练的时候却才懂什么叫巧妇难为无米之炊的滋味。中文语料库实在少的可怜,偶尔有一两个带标签的语料库,拿出一 ...
分类:
编程语言 时间:
2020-01-28 09:28:35
阅读次数:
74
爬虫时报错如下: requests.exceptions.SSLError: HTTPSConnectionPool(host='某某某网站', port=443): Max retries exceeded with url: /login/ (Caused by SSLError(SSLErro ...
分类:
编程语言 时间:
2020-01-27 13:43:26
阅读次数:
549
一、什么是字体反爬? 字体反爬就是将关键性数据对应于其他Unicode编码,浏览器使用该页面自带的字体文件加载关键性数据,正常显示,而当我们将数据进行复制粘贴、爬取操作时,使用的还是标准的Unicode字符映射,解析后就是干扰性数据,以猫眼电影为例: 上图表明,浏览器正常渲染的数据在调试界面显示为错 ...
分类:
编程语言 时间:
2020-01-26 20:45:17
阅读次数:
92
爬取猫眼电影排行,无法正常显示中文,出现乱码 response.text响应总是乱码 找了许多种方法,python爬虫解决gbk乱码问题、python爬虫的中文乱码问题? - 知乎 发现,在爬取百度[https://www.baidu.com/]时出现乱码,通过 import requests ur ...
分类:
其他好文 时间:
2020-01-26 19:00:09
阅读次数:
114
资料: W3C标准:https://www.w3.org/TR/xpath/all/ W3School:https://www.w3school.com.cn/xpath/index.asp 菜鸟教程:https://www.runoob.com/xpath/xpath tutorial.html ...
分类:
编程语言 时间:
2020-01-25 23:35:25
阅读次数:
110
Python爬虫:urllib库的基本使用Python爬虫 请求网址获取网页代码import urllib.request url = "http://www.baidu.com" response = urllib.request.urlopen(url) data = response.read... ...
分类:
编程语言 时间:
2020-01-24 09:31:58
阅读次数:
133
请求网址获取网页代码 get带参数请求 直接这么写会报错: 原因是,网址里面包含了汉字,但是ascii码是没有汉字的,需要转义一下: ...
分类:
编程语言 时间:
2020-01-23 22:54:36
阅读次数:
146
下面不做过多文字描述: 首先、安装必要的库 # 安装BeautifulSoup pip install beautifulsoup4 # 安装requests pip install requests 其次、上代码!!! ①重定向网站爬虫h4文字 import requests from bs4 i ...
分类:
编程语言 时间:
2020-01-22 18:23:01
阅读次数:
75
网络爬虫是什么? 网络爬虫就是:请求网站并提取数据的自动化程序 网络爬虫能做什么? 网络爬虫被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。 网络爬虫还被用于爬取各个网站的数据,进行分析、预测近几年来,大量的企业和个人开始使用网络 ...
分类:
编程语言 时间:
2020-01-20 15:12:56
阅读次数:
192
一、Appium工作原理(详情见:https://www.cnblogs.com/sophia194910/p/7515165.html) Appium的功能其实很简单:监听一个端口,然后接收由client发送来的command,翻译这些command,把这些command转成移动设备可以理解的形式 ...
分类:
移动开发 时间:
2020-01-18 16:45:32
阅读次数:
184