参考资料:https://cuiqingcai.com/993.html 即 静觅 » Python爬虫实战二之爬取百度贴吧帖子 我最近在忙学校的一个小项目的时候涉及到NLP的内容。但是在考虑如何训练的时候却才懂什么叫巧妇难为无米之炊的滋味。中文语料库实在少的可怜,偶尔有一两个带标签的语料库,拿出一 ...
分类:
编程语言 时间:
2020-01-28 09:28:35
阅读次数:
74
爬虫时报错如下: requests.exceptions.SSLError: HTTPSConnectionPool(host='某某某网站', port=443): Max retries exceeded with url: /login/ (Caused by SSLError(SSLErro ...
分类:
编程语言 时间:
2020-01-27 13:43:26
阅读次数:
549
一、什么是字体反爬? 字体反爬就是将关键性数据对应于其他Unicode编码,浏览器使用该页面自带的字体文件加载关键性数据,正常显示,而当我们将数据进行复制粘贴、爬取操作时,使用的还是标准的Unicode字符映射,解析后就是干扰性数据,以猫眼电影为例: 上图表明,浏览器正常渲染的数据在调试界面显示为错 ...
分类:
编程语言 时间:
2020-01-26 20:45:17
阅读次数:
92
爬取猫眼电影排行,无法正常显示中文,出现乱码 response.text响应总是乱码 找了许多种方法,python爬虫解决gbk乱码问题、python爬虫的中文乱码问题? - 知乎 发现,在爬取百度[https://www.baidu.com/]时出现乱码,通过 import requests ur ...
分类:
其他好文 时间:
2020-01-26 19:00:09
阅读次数:
114
资料: W3C标准:https://www.w3.org/TR/xpath/all/ W3School:https://www.w3school.com.cn/xpath/index.asp 菜鸟教程:https://www.runoob.com/xpath/xpath tutorial.html ...
分类:
编程语言 时间:
2020-01-25 23:35:25
阅读次数:
110
Python爬虫:urllib库的基本使用Python爬虫 请求网址获取网页代码import urllib.request url = "http://www.baidu.com" response = urllib.request.urlopen(url) data = response.read... ...
分类:
编程语言 时间:
2020-01-24 09:31:58
阅读次数:
133
请求网址获取网页代码 get带参数请求 直接这么写会报错: 原因是,网址里面包含了汉字,但是ascii码是没有汉字的,需要转义一下: ...
分类:
编程语言 时间:
2020-01-23 22:54:36
阅读次数:
146
下面不做过多文字描述: 首先、安装必要的库 # 安装BeautifulSoup pip install beautifulsoup4 # 安装requests pip install requests 其次、上代码!!! ①重定向网站爬虫h4文字 import requests from bs4 i ...
分类:
编程语言 时间:
2020-01-22 18:23:01
阅读次数:
75
2019刚出校门,初到公司,最大的成就是完成了一个全球抓取数据的系统!简单介绍一下这个项目的实现思路以及在项目中踩过的坑,随时告诫自己以后尽量避免! 历时一个半月还多几天,终于通过交付测试了!项目是从全球范围内,通过Google,Bing,雅虎来抓取数据,由于服务器不是特别的好,并且考虑到会有很多的 ...
分类:
其他好文 时间:
2020-01-22 01:16:02
阅读次数:
312
增加多线程抓取数据,增加url判断,若数据已抓取,不在重复抓取 (可参考URL管理器) 需要再添加上队列,否则全开 from lxml import etree import requests import time import os import random import urllib3 fr ...
分类:
编程语言 时间:
2020-01-20 18:54:59
阅读次数:
79