码迷,mamicode.com
首页 >  
搜索关键字:requests 、beautifulsoup    ( 5272个结果
bs4和xpath的用法
1.bs4的运用 流程: 1.导入相应的模块:from bs4 import BeautifulSoup 2.实例化一个 BeautifulSoup 对象,并将我们要解析的数据加载到该对象中:soup = BeautifulSoup('要解析的数据','lxml(解析器)') 3.定位标签:(1). ...
分类:其他好文   时间:2020-05-23 11:43:44    阅读次数:99
我常用的库
处理excel表格 openpyxl,csvkit NLP领域(人工智能) 自然语言 NLTK[业内使用较频繁],jieba,SnowNLP HTTP requests – 人性化的HTTP请求库。 grequests – requests 库 + gevent ,用于异步 HTTP 请求. [比r ...
分类:其他好文   时间:2020-05-23 11:27:04    阅读次数:64
获取新闻类网页的所有a链接
思路: 1.传入url 2.访问该网站,获取网站内容,使用try-except的方式 3.使用正则获取该页面的所有url地址 4.过滤url,获取到真正的url,过滤掉图片,css,js, # 之类的 5.保存到列表里 代码如下: 1 import re 2 import requests 3 4 ...
分类:Web程序   时间:2020-05-23 11:22:36    阅读次数:141
大学排名
import requests import pandas as pd import numpy as np from bs4 import BeautifulSoup import sqlite3 allUniv=[] def getHTMLText(url): try: r=requests.g ...
分类:其他好文   时间:2020-05-23 10:01:03    阅读次数:60
广东省大学排名
import requests from bs4 import BeautifulSoup allUniv=[] def getHTMLText(url): try: r=requests.get(url,timeout=30) r.raise_for_status() r.encoding = ' ...
分类:其他好文   时间:2020-05-23 09:57:50    阅读次数:495
广东技术师范大学
import requests from bs4 import BeautifulSoup allUniv=[] def getHTMLText(url): try: r=requests.get(url,timeout=30) r.raise_for_status() r.encoding = ' ...
分类:其他好文   时间:2020-05-23 09:18:05    阅读次数:480
批量下载英雄联盟官网皮肤及打包
1.没啥说的 代码上步骤我都写清楚了,下载图片用的json,re,requests模块打包用的是tarfile模块 批量下载 import requests import time import re import json #英雄联盟官网资料库里面打开F12,然后点一张图片,通过js过滤后,找到c ...
分类:其他好文   时间:2020-05-23 09:17:09    阅读次数:126
爬取百度图片
```python # -*- coding:utf-8 -*- #@Time : 2020-5-22 10:52 #@Author: Henry.ZHAO #@File : main.py # coding:utf-8 import re import requests from urllib i... ...
分类:其他好文   时间:2020-05-22 19:38:47    阅读次数:62
Web_Scraping Techniques
web_scraping_package.py from bs4 import BeautifulSoup import requests session = requests.Session() headers = { 'User-agent': 'Mozilla/5.0 (Windows NT ...
分类:Windows程序   时间:2020-05-22 19:35:17    阅读次数:74
python selenium 下载滑块验证码
#_save_url 保存路径 def image_cj(driver, _save_url): try: _file_name = random.randint(0, 100000) _file_url_drop = _save_url + str(_file_name) + '背景.png' # ...
分类:编程语言   时间:2020-05-22 09:56:31    阅读次数:59
5272条   上一页 1 ... 42 43 44 45 46 ... 528 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!