码迷,mamicode.com
首页 >  
搜索关键字:BeautifulSoup    ( 1186个结果
scrapy框架Selector提取数据
从页面中提取数据的核心技术是HTTP文本解析,在python中常用的模块处理: BeautifulSoup 非常流行的解析库,API简单,但解析的速度慢。 lxml 是一套使用c语言编写的xml解析库,解析速度快,API相对比较复杂。 Scrapy中的Selector类是基于lxml库建立的,并且简 ...
分类:其他好文   时间:2018-04-26 12:01:01    阅读次数:234
爬虫大作业
1.选一个自己感兴趣的主题或网站。(所有同学不能雷同) 我选了附近松田学校的校园网来爬取 2.用python 编写爬虫程序,从网络上爬取相关主题的数据。 # -*- coding: utf-8 -*- import requests from bs4 import BeautifulSoup as ...
分类:其他好文   时间:2018-04-24 21:51:36    阅读次数:202
爬虫大作业
import requests from bs4 import BeautifulSoup import json import jieba.analyse from PIL import Image import numpy as np import matplotlib.pyplot as pl... ...
分类:其他好文   时间:2018-04-24 20:19:23    阅读次数:191
爬虫大作业
1.爬取豆瓣电影top250。(所有同学不能雷同) 2.用python 编写爬虫程序,从网络上爬取相关主题的数据。 import requests from bs4 import BeautifulSoup from datetime import datetime import re import ...
分类:其他好文   时间:2018-04-24 13:59:35    阅读次数:214
python简单处理xml文件
Python若是想从xml里读点信息,用BeautifulSoup可能会容易一点,但是如果要修改xml,BeatifulSoup就搞不定了,其实直接用lxml就好。 etree表示整个xml树结构,对其元素修改,就直接表现为对etree的修改,然后存储即可。一般的函数用法现查即可,只有XPath需要 ...
分类:编程语言   时间:2018-04-23 19:59:48    阅读次数:175
BeautifulSoup的基本操作
>>> from bs4 import BeautifulSoup #导入 >>> soup = BeautifulSoup(url.content,"lxml") >>> print(soup.prettify) #格式化代价 >>> print(soup.title.string)郑州轻工业学院 ...
分类:其他好文   时间:2018-04-22 19:57:10    阅读次数:206
python大作业
利用python对豆瓣电影评价的爬取,并生成词云 一、抓取网页数据 第一步要对网页进行访问,python中使用的是urllib库。代码如下: 第二步,需要对得到的html代码进行解析,得到里面提取我们需要的数据。 在python中使用BeautifulSoup库进行html代码的解析。 Beauti ...
分类:编程语言   时间:2018-04-22 12:50:53    阅读次数:511
Windows下安装BeautifulSoup
下面就是bs4的安装过程了: 1.去官网下载BeautifulSoup4:Beautiful Soup 4.3.2 2.解压文件 将下载得到的压缩包解压到任意文件夹,路径不含中文 3.打开cmd命令提示符 win+r,输入cmd,回车 进入解压后的目录,我这里是C:\Python27\bs4\bea ...
分类:Windows程序   时间:2018-04-21 19:29:30    阅读次数:219
爬虫-爬取豆瓣图书TOP250
import requests from bs4 import BeautifulSoup def get_book(url): wb_data = requests.get(url) soup = BeautifulSoup(wb_data.text,'lxml') title_list = so... ...
分类:其他好文   时间:2018-04-18 01:02:17    阅读次数:385
数据结构化与保存
import requests from bs4 import BeautifulSoup from datetime import datetime import re import pandas import openpyxl import sqlite3 url = "http://news.... ...
分类:其他好文   时间:2018-04-18 00:59:53    阅读次数:146
1186条   上一页 1 ... 53 54 55 56 57 ... 119 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!