写了个脚本,用于从www.so.com 上查询电话号码的标记情况,记录下号码所属公司、标记类型、标记人数(如果存在)。如下图红框中的信息。主要使用python的beautifulsoup和selenium,还用到了云打码平台(固定ip频繁查询后会被360要求输入验证码,需要收费,1分钱1个码)和百度OCR(360的查询结果中,所属公司是图片形式,因此需要文字识别,每天50000张以下免费)。约4-8秒处理一个号码,只能单进程(多进程啥的无意义,毕竟固定ip只有一个)。我们用来处理9000个号码,0点开始,大约10点结束。(python3.7.2)
分类:
其他好文 时间:
2019-11-10 21:11:13
阅读次数:
86
写了个脚本,用于从www.so.com 上查询电话号码的标记情况,记录下号码所属公司、标记类型、标记人数(如果存在)。如下图红框中的信息。主要使用python的beautifulsoup和selenium,还用到了云打码平台(固定ip频繁查询后会被360要求输入验证码,需要收费,1分钱1个码)和百度... ...
分类:
其他好文 时间:
2019-11-10 15:38:21
阅读次数:
107
BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库. 1.prettify()方法:将Beautiful Soup的文档树格式化后以Unicode编码输出,每个XML/HTML标签都独占一行。 输出结果: 2.基本操作 结果: <p class="123">喜欢捕捉 ...
分类:
其他好文 时间:
2019-11-09 17:11:00
阅读次数:
90
1 import re 2 import requests 3 from bs4 import BeautifulSoup 4 5 url = 'http://www.biquge6.com/11_11147/' 6 r = requests.get(url) 7 b = BeautifulSoup ...
分类:
其他好文 时间:
2019-11-05 21:48:10
阅读次数:
115
在爬取12306站点名时发现,BeautifulSoup检索不到station_version的节点 因为script标签在</html>之外,如果用‘lxml’解析器会忽略这一部分,而使用html5lib则不会。 ... 1 <!-- 购物车 --> 2 <div style="display: ...
分类:
编程语言 时间:
2019-11-05 21:44:49
阅读次数:
187
本篇爬虫主要是为了从最好大学网站上爬取2019年各个大学的排名,以及把数据存储到mysql的过程: 1 import requests 2 from bs4 import BeautifulSoup 3 import bs4 4 import pymysql 5 6 # 连接数据库并且创建数据表 7 ...
分类:
其他好文 时间:
2019-11-05 21:43:57
阅读次数:
246
一、第一版 第一版比较通俗易懂,使用的是urllib里的request + bs4里的BeautifulSoup,requests库可以代替urllib里的request,命令行显示结果。 from urllib import request from urllib import error fro ...
分类:
其他好文 时间:
2019-11-04 15:21:46
阅读次数:
79
正则表达式+BeautifulSoup爬取网页可事半功倍。 就拿百度贴吧网址来练练手:https://tieba.baidu.com/index.html 1.find_all():搜索当前节点的所有子节点,孙子节点。 下面例子是用find_all()匹配贴吧分类模块,href链接中带有“娱乐”两字 ...
分类:
其他好文 时间:
2019-11-03 14:54:59
阅读次数:
415
一 .BeautifulSoup库使用和参数 1 .Beautiful简介 ...
分类:
其他好文 时间:
2019-10-31 16:25:21
阅读次数:
78
需求:爬取哔哩哔哩网页弹幕内容,并将爬取的内容以五角星的形式显示出来 思路: 实现: 使用到的类库,如果没有,需要下载,下载命令: 知识点: request 向对方服务器发送请求 BeautifulSoup 解析爬取的弹幕内容 pandas 分析弹幕数据 jieba 中文分词器,或称为中文词组切片器 ...
分类:
Web程序 时间:
2019-10-28 20:51:02
阅读次数:
147