1.bs4的运用 流程: 1.导入相应的模块:from bs4 import BeautifulSoup 2.实例化一个 BeautifulSoup 对象,并将我们要解析的数据加载到该对象中:soup = BeautifulSoup('要解析的数据','lxml(解析器)') 3.定位标签:(1). ...
分类:
其他好文 时间:
2020-05-23 11:43:44
阅读次数:
99
处理excel表格 openpyxl,csvkit NLP领域(人工智能) 自然语言 NLTK[业内使用较频繁],jieba,SnowNLP HTTP requests – 人性化的HTTP请求库。 grequests – requests 库 + gevent ,用于异步 HTTP 请求. [比r ...
分类:
其他好文 时间:
2020-05-23 11:27:04
阅读次数:
64
思路: 1.传入url 2.访问该网站,获取网站内容,使用try-except的方式 3.使用正则获取该页面的所有url地址 4.过滤url,获取到真正的url,过滤掉图片,css,js, # 之类的 5.保存到列表里 代码如下: 1 import re 2 import requests 3 4 ...
分类:
Web程序 时间:
2020-05-23 11:22:36
阅读次数:
141
import requests import pandas as pd import numpy as np from bs4 import BeautifulSoup import sqlite3 allUniv=[] def getHTMLText(url): try: r=requests.g ...
分类:
其他好文 时间:
2020-05-23 10:01:03
阅读次数:
60
import requests from bs4 import BeautifulSoup allUniv=[] def getHTMLText(url): try: r=requests.get(url,timeout=30) r.raise_for_status() r.encoding = ' ...
分类:
其他好文 时间:
2020-05-23 09:57:50
阅读次数:
495
import requests from bs4 import BeautifulSoup allUniv=[] def getHTMLText(url): try: r=requests.get(url,timeout=30) r.raise_for_status() r.encoding = ' ...
分类:
其他好文 时间:
2020-05-23 09:18:05
阅读次数:
480
1.没啥说的 代码上步骤我都写清楚了,下载图片用的json,re,requests模块打包用的是tarfile模块 批量下载 import requests import time import re import json #英雄联盟官网资料库里面打开F12,然后点一张图片,通过js过滤后,找到c ...
分类:
其他好文 时间:
2020-05-23 09:17:09
阅读次数:
126
```python # -*- coding:utf-8 -*- #@Time : 2020-5-22 10:52 #@Author: Henry.ZHAO #@File : main.py # coding:utf-8 import re import requests from urllib i... ...
分类:
其他好文 时间:
2020-05-22 19:38:47
阅读次数:
62
web_scraping_package.py from bs4 import BeautifulSoup import requests session = requests.Session() headers = { 'User-agent': 'Mozilla/5.0 (Windows NT ...
#_save_url 保存路径 def image_cj(driver, _save_url): try: _file_name = random.randint(0, 100000) _file_url_drop = _save_url + str(_file_name) + '背景.png' # ...
分类:
编程语言 时间:
2020-05-22 09:56:31
阅读次数:
59