我们需要爬取2019年中国内地的大学排名,这里以物理学科为例,http://www.zuihaodaxue.cn/BCSR/wulixue2019.html。 这个页面比较简单爬取难度不大,这里我们使用python的requests,bs4,BeautifulSoup库,关于BeatutifulSo ...
分类:
其他好文 时间:
2020-01-28 12:34:12
阅读次数:
76
1.XPath: XPath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历。 工具:扩展商店里搜索:XPath Helper(我是QQ浏览器) XPath的语法: 使用举例: 2. lxml库: lxml 是 一 ...
分类:
其他好文 时间:
2020-01-27 18:57:44
阅读次数:
104
下面不做过多文字描述: 首先、安装必要的库 # 安装BeautifulSoup pip install beautifulsoup4 # 安装requests pip install requests 其次、上代码!!! ①重定向网站爬虫h4文字 import requests from bs4 i ...
分类:
编程语言 时间:
2020-01-22 18:23:01
阅读次数:
75
前言 emmmm python简单图片抓取 1 import requests 2 import threading 3 import queue 4 from subprocess import Popen,PIPE 5 from bs4 import BeautifulSoup as bs 6 ...
分类:
编程语言 时间:
2020-01-22 11:19:26
阅读次数:
88
网上的妹子图爬虫:只爬取一个人物相册 import requests from bs4 import BeautifulSoup headers = { 'User-Agent':'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)', 'Refer ...
分类:
编程语言 时间:
2020-01-18 00:45:19
阅读次数:
76
import requests,bs4 from bs4 import BeautifulSoup def getHTMLText(url): try: r=requests.get(url) r.raise_for_status() r.encoding=r.apparent_encoding r ...
分类:
编程语言 时间:
2020-01-17 21:33:16
阅读次数:
126
今天在用 kindeditor + vsftpd +nginx 做多图片上图的功能,前端报了错误 net::ERR_CONNECTION_REFUSED , 网上搜了一下,说要把 localhost 的地址替换成本机的 ip 地址,我尝试了一下,但是并没有成功,于是我又看了其他文章,说造成这个错误的 ...
分类:
Web程序 时间:
2020-01-16 01:11:16
阅读次数:
113
#bs4的使用 import re import requests from urllib import error from bs4 import BeautifulSoup import os url = 'https://c.y.qq.com/soso/fcgi-bin/client_sear ...
分类:
其他好文 时间:
2020-01-11 20:09:27
阅读次数:
79
前言 首先简单说明一下什么是 Beautiful Soup一句话说明:Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库通过这个库我们能够操作xml格式的数据 1、windows+r,进入cmd命令; 2.查看python安装路径:where python 3. ...
分类:
编程语言 时间:
2020-01-10 16:00:01
阅读次数:
144
爬虫学习 06.Python网络爬虫之requests模块(2) 今日内容 session处理cookie proxies参数设置请求代理ip 基于线程池的数据爬取 知识点回顾 xpath的解析流程 bs4的解析流程 常用xpath表达式 常用bs4解析方法 了解cookie和session \ 无 ...
分类:
编程语言 时间:
2020-01-09 19:01:29
阅读次数:
118