码迷,mamicode.com
首页 > 其他好文 > 详细

网络爬虫百度新闻标题及链接爬取

时间:2020-05-03 10:59:32      阅读:207      评论:0      收藏:0      [点我收藏+]

标签:打开   exce   dem   lte   ext   爬取   http   raise   html   

1.主题:百度新闻爬取

2.

python代码:

    

    import requests
    from bs4 import BeautifulSoup
    def getHTMLText(url):
      try:
        r = requests.get(url,timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
      except:
        return ""
    def filllist(demo):
      soup=BeautifulSoup(demo,"html.parser")
      for i in soup.find_all("a"):
        list1=i.attrs
        print(i.text,end=‘ ‘)
        print(list1[‘href‘])
    def main():
      url="http://news.baidu.com/"
      demo=getHTMLText(url)
      getHTMLText(url)
      filllist(demo)
    main()

代码完成之后就是这个样子

技术图片

 

 

 

3.问题:在代码编写过程中,我遇到了很多问题,比如一开始用find函数总是出现错误,我也是看大家的代码才找到正确的打开方式。

    另外开始是这样的,一下子所有的属性都打出

    技术图片

 

 

 

  我的本意是只要链接的那部分属性,经过反复看视频和多次的实验终于解决了这个难题,形成了开头那个样子。很开心!

  但是开头和结尾还是有多余的部分不知道怎么解决,求助!

    技术图片 技术图片

 

 

网络爬虫百度新闻标题及链接爬取

标签:打开   exce   dem   lte   ext   爬取   http   raise   html   

原文地址:https://www.cnblogs.com/732jbw/p/12820719.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!