首页 > 编程语言 > 详细

自动抓取163新闻的Python爬虫源码

时间：2017-11-04 23:32:06 阅读：269 评论：0 收藏：0 [点我收藏+]

标签：== type urllib html 源码 cells write order 整理

Python爬虫的学习，自动抓取163新闻的Python爬虫源码，这是一个用Python语言编写的，自动抓取网易新闻的python爬虫实现方法一文。

Python爬虫的抓取思路是：
（1）通过分析目标新闻网址，分析其中以News.xxx.com 开头的链接
（2）获取每一个链接的内容，并做整理合并到事前准备好的.txt 文本中，以便查看各新闻。
但是需要注意的是：由于今天的测试对象，网易新闻的格式不是非常统一，所有会有部分漏掉的情况，还能大家见谅。也希望有能力的朋友们帮着改进一下。

技术分享

自动抓取163新闻的Python爬虫源码如下：

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

#coding:utf-8

importre, urllib

strTitle =""

strTxtTmp =""

strTxtOK =""

f =open("163News.txt", "w+")

m =re.findall(r"news\.163\.com/\d.+?<\/a>",urllib.urlopen("http://www.163.com").read(),re.M)

#www.iplaypy.com

fori inm:

testUrl =i.split(‘"‘)[0]

if testUrl[-4:-1]=="htm":

strTitle = strTitle + "\n" + i.split(‘"‘)[0] +i.split(‘"‘)[1] # 合并标题头内容

okUrl = i.split(‘"‘)[0] # 重新组合链接

UrlNews =‘‘

UrlNews ="http://"+okUrl

printUrlNews

"""

查找分析链接里面的正文内容，但是由于 163 新闻的格式不是非常统一，所以只能说大部分可以。

整理去掉部分 html 代码，让文本更易于观看。

"""

n =re.findall(r"

(.*?)<\/P>",urllib.urlopen(UrlNews).read(),re.M)

forj inn:

iflen(j)<>0:

j =j.replace(" ","\n")

j =j.replace("","\n_____")

j =j.replace("","_____\n")

strTxtTmp =strTxtTmp +j +"\n"

strTxtTmp =re.sub(r"", r"", strTxtTmp)

strTxtTmp =re.sub(r"<\/[Aa]>", r"", strTxtTmp)

strTxtOK =strTxtOK +"\n\n\n==============="+

i.split(‘"‘)[0] + i.split(‘"‘)[1] +"===============\n"+strTxtTmp

strTxtTmp ="" # 组合链接标题和正文内容

printstrTxtOK

f.write(strTitle +"\n\n\n"+strTxtOK)# 全部分析完成后，写入文件

f.close()#关闭文件

文章代码实效性有限，还请适当做修改后再使用。

自动抓取163新闻的Python爬虫源码

标签：== type urllib html 源码 cells write order 整理

原文地址：http://www.cnblogs.com/yangshunde/p/7784773.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！