BeautifulSoup 已经是非常强大的库了,不过还有一些比较流行的解析库,例如 lxml,使用的是 Xpath 语法,同样是效率比较高的解析方法。 1.安装 pip install lxml 2. XPath语法 XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML ...
分类:
其他好文 时间:
2018-11-20 19:43:53
阅读次数:
198
爬虫爬取网站信息1 需要用到的库 -requests -bs42 流程 1通过requests发送get请求,这里请求包括url和user-agent 2通过beautifulsoup将response转换成lxml格式 3通过soup.select查找需要的数据,是一个列表的形式,可以同归索引取值 ...
分类:
其他好文 时间:
2018-11-20 13:30:08
阅读次数:
155
from bs4 import BeautifulSoup @login_required def add_article(request): """ 后台管理的添加书籍视图函数 :param request: :return: """ if request.method == "POST": ti... ...
分类:
其他好文 时间:
2018-11-16 15:04:31
阅读次数:
192
一、爬虫的步骤 1.发起请求,模拟浏览器发送一个http请求 2.获取响应的内容 3.解析内容(解析出对自己有用的部分) a.正则表达式 b.BeautifulSoup模块 c.pyquery模块 d.selenium模块 4.保存数据 a.文本文件(txt,csv等) b.数据库(mysql) c ...
分类:
编程语言 时间:
2018-11-11 00:03:33
阅读次数:
287
from urllib import request from bs4 import BeautifulSoup as bs import re import codecs import jieba #分词包 import numpy #numpy计算包 import pandas as pd #分... ...
分类:
其他好文 时间:
2018-11-10 21:16:31
阅读次数:
324
from urllib import request from bs4 import BeautifulSoup as bs import re import codecs import jieba #分词包 import numpy #numpy计算包 import pandas as pd #分... ...
分类:
其他好文 时间:
2018-11-10 21:11:14
阅读次数:
174
import requests #requests模块用于HTTP请求 import codecs #codecs模块用于文件操作 from bs4 import BeautifulSoup #beautifulSoup库用于对html代码进行解析 #要爬取的地址 URL="https://book... ...
分类:
其他好文 时间:
2018-11-10 20:12:26
阅读次数:
242
from urllib import request from bs4 import BeautifulSoup as bs #爬取豆瓣最受关注图书榜 resp = request.urlopen('https://book.douban.com/chart?subcat=I') html_data... ...
分类:
其他好文 时间:
2018-11-10 20:10:53
阅读次数:
180
from urllib import request from bs4 import BeautifulSoup as bs #爬取豆瓣最受关注图书榜 resp = request.urlopen('https://book.douban.com/chart?subcat=I') html_data... ...
分类:
其他好文 时间:
2018-11-10 20:08:52
阅读次数:
274