1.XPath: XPath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历。 工具:扩展商店里搜索:XPath Helper(我是QQ浏览器) XPath的语法: 使用举例: 2. lxml库: lxml 是 一 ...
分类:
其他好文 时间:
2020-01-27 18:57:44
阅读次数:
104
下面不做过多文字描述: 首先、安装必要的库 # 安装BeautifulSoup pip install beautifulsoup4 # 安装requests pip install requests 其次、上代码!!! ①重定向网站爬虫h4文字 import requests from bs4 i ...
分类:
编程语言 时间:
2020-01-22 18:23:01
阅读次数:
75
前言 emmmm python简单图片抓取 1 import requests 2 import threading 3 import queue 4 from subprocess import Popen,PIPE 5 from bs4 import BeautifulSoup as bs 6 ...
分类:
编程语言 时间:
2020-01-22 11:19:26
阅读次数:
88
网上的妹子图爬虫:只爬取一个人物相册 import requests from bs4 import BeautifulSoup headers = { 'User-Agent':'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)', 'Refer ...
分类:
编程语言 时间:
2020-01-18 00:45:19
阅读次数:
76
import requests,bs4 from bs4 import BeautifulSoup def getHTMLText(url): try: r=requests.get(url) r.raise_for_status() r.encoding=r.apparent_encoding r ...
分类:
编程语言 时间:
2020-01-17 21:33:16
阅读次数:
126
#bs4的使用 import re import requests from urllib import error from bs4 import BeautifulSoup import os url = 'https://c.y.qq.com/soso/fcgi-bin/client_sear ...
分类:
其他好文 时间:
2020-01-11 20:09:27
阅读次数:
79
前言 首先简单说明一下什么是 Beautiful Soup一句话说明:Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库通过这个库我们能够操作xml格式的数据 1、windows+r,进入cmd命令; 2.查看python安装路径:where python 3. ...
分类:
编程语言 时间:
2020-01-10 16:00:01
阅读次数:
144
爬虫学习 06.Python网络爬虫之requests模块(2) 今日内容 session处理cookie proxies参数设置请求代理ip 基于线程池的数据爬取 知识点回顾 xpath的解析流程 bs4的解析流程 常用xpath表达式 常用bs4解析方法 了解cookie和session \ 无 ...
分类:
编程语言 时间:
2020-01-09 19:01:29
阅读次数:
118
1 import requests 2 import json 3 import random 4 from bs4 import BeautifulSoup 5 6 import time 7 8 import re 9 10 # 获取验证码 11 12 13 def get_code(url): ...
分类:
编程语言 时间:
2020-01-08 14:37:27
阅读次数:
165
"01 基本原理" "02 请求库之requests库" "03 请求库之selenium" "04 doubanTop50" "05 lishipin" "06 解析库Beautiful Soup" "07 requests+bs4 豌豆荚" "08 MongoDB数据库安装" "09 Mongo ...
分类:
其他好文 时间:
2020-01-05 20:35:41
阅读次数:
100