使用爬虫遇到的一些问题

时间：2018-09-05 19:51:49 阅读：119 评论：0 收藏：0 [点我收藏+]

标签：com cookie window 记录 eager cli tool art 用法

本博客会记录博主在使用爬虫过程中遇到的问题，不断更新，希望以后再遇到这些问题的时候，可以快速解决。

1、在爬取和讯博客的时候发现阅读数和评论数无法正常读取。通过抓包工具抓取到了阅读数和评论数的URL，但是复制到浏览器上打开发现一片空白。在抓包工具Raw里发现，有一项Refere，后面将此项加到headers信息里，数据可以正常显示出来了。代码如下：

import urllib.request

url=‘http://click.tool.hexun.com/click.aspx?articleid=116367158&blogid=19050645‘

data={

"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36",
"Referer":"http://27783968.blog.hexun.com/116367158_d.html",

}

request=urllib.request.Request(url,headers = data)
data=urllib.request.urlopen(request).read().decode("utf-8","ignore")
print(data)

此次难点在于不熟悉urllib库是如何添加更多的请求信息到heagers里，在以上代码中，data里还可以添加更加多的请求，比如cookie等信息，记录此次代码的目的在于熟悉urllib.request.Reques的用法

使用爬虫遇到的一些问题

标签：com cookie window 记录 eager cli tool art 用法

原文地址：http://blog.51cto.com/wuliu92/2170753

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行