文件存储 TXT文件存储 # 爬取知乎上的热门话题,获取话题的问题、作者、答案,然后保存在TXT文本中 1 import requests 2 from pyquery import PyQuery 3 4 url = 'https://www.zhihu.com/explore' 5 header ...
分类:
其他好文 时间:
2019-07-12 11:22:50
阅读次数:
114
前两章简单的讲了Beautiful Soup的用法,在爬虫的过程中相信都遇到过一些反爬虫,如何跳过这些反爬虫呢?今天通过豆瓣网写一个简单的反爬中 什么是反爬虫 简单的说就是使用任何技术手段,阻止别人批量获取自己网站信息的一种方式。关键也在于批量。 反反爬虫机制 增加请求头 headers为了模拟更真 ...
分类:
其他好文 时间:
2019-07-05 19:26:08
阅读次数:
138
SyntaxError: Non-UTF-8 code starting with '\xbf' in file python-zhihu -v1.2.py on line 34, but no encoding declared; see http://python.org/dev/peps/pe ...
分类:
编程语言 时间:
2019-02-27 17:41:04
阅读次数:
223
总览 今天我们就来小用一下Jsoup,从一个整体的角度来看一看爬虫 一个基本的爬虫框架包括: [x] 解析网页 [x] 失败重试 [x] 抓取内容保存至本地 [x] 多线程抓取 分模块讲解 将上述基本框架的模块按逻辑顺序讲解,一步一步复现代码实现过程 失败重试 一个好的模块必然有异常捕捉和处理 在之 ...
分类:
Web程序 时间:
2019-01-23 15:35:43
阅读次数:
326
用python爬取知乎的热榜,获取标题和链接。 环境和方法:ubantu16.04、python3、requests、xpath 1.用浏览器打开知乎,并登录 2.获取cookie和User—Agent 3.上代码 4.爬取结果 ...
分类:
编程语言 时间:
2019-01-21 12:17:50
阅读次数:
432
登陆 参考 "https://github.com/zkqiang/Zhihu Login" <! more 数据库设计 sql DROP TABLE IF EXISTS ; CREATE TABLE ( bigint(20) NOT NULL, varchar(255) DEFAULT NULL, ...
分类:
其他好文 时间:
2018-11-04 21:07:43
阅读次数:
146
使用pycharm爬取知乎网站的时候,在terminal端输入scarpy crawl zhihu,提示语法错误,如下: 原因是python3.7中将async设为关键字,根据错误提示,找到manhole.py文件,将文件中async参数全部更改为其它名,比如async1。 这时候运行scarpy ...
import requests import json import time from pyquery import PyQuery import pandas as pd from collections import OrderedDict import multiprocessing imp... ...
分类:
其他好文 时间:
2018-08-03 18:47:11
阅读次数:
183
今天学了下java的爬虫,首先要下载jousp的包,然后导入,导入过程:首先右击工程:Build Path ->configure Build Path,再点击Add External JARS,进行导包。 学习参考文档:https://jsoup.org/ 但是有一点小问题:就是利用java爬虫爬 ...
分类:
编程语言 时间:
2018-07-19 23:25:59
阅读次数:
630