码迷,mamicode.com
首页 >  
搜索关键字:beautiful soup    ( 1340个结果
消除不受信任的HTML (来防止XSS攻击)
问题 在做网站的时候,经常会提供用户评论的功能。有些不怀好意的用户,会搞一些脚本到评论内容中,而这些脚本可能会破坏整个页面的行为,更严重的是获取一些机要信息,此时需要清理该HTML,以避免跨站脚本cross-site scripting攻击(XSS)。 方法 使用jsoup HTML Cleaner ...
分类:Web程序   时间:2020-03-21 21:18:58    阅读次数:87
爬取微博热搜榜
import requestsfrom bs4 import BeautifulSoupurl = 'https://s.weibo.com/top/summary?cate=realtimehot'headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6 ...
分类:其他好文   时间:2020-03-21 16:34:43    阅读次数:142
爬百度新闻
from selenium import webdriver from bs4 import BeautifulSoup from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Ke ...
分类:其他好文   时间:2020-03-21 14:47:09    阅读次数:64
爬取百度实时热点前十排行榜
import requests#导入相应库from bs4 import BeautifulSoupimport pandas as pdurl = 'http://top.baidu.com/buzz?b=1&c=513&fr=topbuzz_b341_c513'#要爬取的网址headers = ...
分类:其他好文   时间:2020-03-21 14:37:17    阅读次数:104
利用python爬取微博热搜
1.打开所要爬取的网页https://s.weibo.com/weibo?q=%E7%83%AD%E6%90%9C&wvr=6&b=1&Refer=SWeibo_box 2.打开开发者工具查找所要爬取的数据位置 3.进行爬取并数据可视化 import requests#引入requests库用于下载 ...
分类:编程语言   时间:2020-03-20 14:21:37    阅读次数:79
获取知乎热点前十
import requests from bs4 import BeautifulSoup import time import os import urllib #需要爬取的目标网页 link='https://www.zhihu.com/hot' #对网页进行解析 soup=BeautifulS ...
分类:其他好文   时间:2020-03-20 11:10:29    阅读次数:75
《废柴》系列 - What?废柴,你的IDE激活码又失效了,Are you kidding???
简介 最近不管是在QQ群还是在微信 群里总是能够看到IDE的激活码失效的字眼,宏哥也一直在说“关注公众号发送《激活码》三个字就可以获取到有效的激活码”。可是还是有些童鞋们和小伙伴在一直不停的问问问。究其根本原因还是大多数还是穷人或者是永久激活失败了 ,如果有钱直接就购买整版了,如果永久激活就不会到期 ...
分类:其他好文   时间:2020-03-18 11:51:32    阅读次数:91
爬取福州地区职位数据
从网页源代码中找到我们需要爬取的标签且是html结构,爬取目标为class=’job_titile'和class='job_content' import requests from bs4 import BeautifulSoup import bs4 import pandas as pd #引 ...
分类:其他好文   时间:2020-03-17 21:06:01    阅读次数:64
爬取百度热搜榜前十
1.导入相应的库 2.找到要爬取的网站:http://top.baidu.com/buzz?b=341&c=513&fr=topbuzz_b341_c513 3.找到爬去的内容: 4.用for循环将需要的内容添加到空列表中,在使用DataFrame打印出热搜榜前十 import requests f ...
分类:其他好文   时间:2020-03-16 16:23:23    阅读次数:77
【Python】BeautifulSoup的使用
1、遍历文档树 使用示例: html_doc = """ <html><head><title>The Dormouse's story</title></head> <body> <p class="title"><b>The Dormouse's story</b></p> <p class=" ...
分类:编程语言   时间:2020-03-11 15:41:18    阅读次数:67
1340条   上一页 1 ... 7 8 9 10 11 ... 134 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!