一、数据采集 1、代码展示 import requestsimport refrom bs4 import BeautifulSoupimport pandas as pdimport timepaiming=[]juming=[]shijian=[]daoyan=[]pingfen=[]pingr ...
分类:
其他好文 时间:
2020-04-23 20:56:29
阅读次数:
66
request模块: 文件乱码: 反爬机制: 动态加载数据爬取 回顾: 正则,xpath,bs4: 正则解析: b64: xpath: 合并条件: 错误分析 ...
分类:
其他好文 时间:
2020-04-10 17:17:30
阅读次数:
73
1、数据库中即时保存数据:Dataset; 2、从网页抓取数据:Beautiful Soup 3、和 HTTP 内容打交道:Requests 4、编写命令行工具:Click 5、对事物命名:Python Slugify 6、和插件打交道:Pluggy 7、把 CSV 文件转换到 API 中:Data ...
分类:
编程语言 时间:
2020-04-10 11:56:52
阅读次数:
98
soup.find_all(lambda tag: tag.name=='li' and tag.get('class')==['table_col']) bs中使用的是模糊匹配,所以查到为所有的包括table_col的所有<li> ...
分类:
其他好文 时间:
2020-03-31 14:21:59
阅读次数:
50
通过前面的文章,我们已经知道了如何获取网页和下载文件,但是前面我们获取的网页都是未经处理的,冗余的信息太多,无法进行分析和利用 这一节我们就来学习怎么从网页中筛选自己需要的信息,顺便给大家推荐一个资源很全的python学习免非解答.裙 :七衣衣九七七巴而五(数字的谐音)转换下可以找到了,这里有资深程 ...
分类:
编程语言 时间:
2020-03-23 15:10:27
阅读次数:
118
记录一下在用python爬取百度链接中遇到的坑: 1.获取百度搜索页面中的域名URL BeautifulSoup获取a标签中href属性后,链接为百度url,利用request直接访问默认会直接进行跳转,无法获取所需域名 此时需要将requests的allow_redirects属性设置为False ...
分类:
编程语言 时间:
2020-03-23 13:50:02
阅读次数:
82
问题 在做网站的时候,经常会提供用户评论的功能。有些不怀好意的用户,会搞一些脚本到评论内容中,而这些脚本可能会破坏整个页面的行为,更严重的是获取一些机要信息,此时需要清理该HTML,以避免跨站脚本cross-site scripting攻击(XSS)。 方法 使用jsoup HTML Cleaner ...
分类:
Web程序 时间:
2020-03-21 21:18:58
阅读次数:
87
import requestsfrom bs4 import BeautifulSoupurl = 'https://s.weibo.com/top/summary?cate=realtimehot'headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6 ...
分类:
其他好文 时间:
2020-03-21 16:34:43
阅读次数:
142
import requests#导入相应库from bs4 import BeautifulSoupimport pandas as pdurl = 'http://top.baidu.com/buzz?b=1&c=513&fr=topbuzz_b341_c513'#要爬取的网址headers = ...
分类:
其他好文 时间:
2020-03-21 14:37:17
阅读次数:
104
1.打开所要爬取的网页https://s.weibo.com/weibo?q=%E7%83%AD%E6%90%9C&wvr=6&b=1&Refer=SWeibo_box 2.打开开发者工具查找所要爬取的数据位置 3.进行爬取并数据可视化 import requests#引入requests库用于下载 ...
分类:
编程语言 时间:
2020-03-20 14:21:37
阅读次数:
79