码迷,mamicode.com
首页 >  
搜索关键字:beautifulsoup    ( 1186个结果
爬腾讯视频所有类型的电影
未完待续! 1 #coding: utf-8 2 import re 3 import urllib2 4 from bs4 import BeautifulSoup 5 import time 6 import xlwt 7 import sys 8 reload(sys) 9 ...
分类:其他好文   时间:2015-06-28 21:21:14    阅读次数:195
python 解析HTML
1. 理解网页上的数据 网页上的数据主要有: HTML XHTML XML JSON 需要一个接受数据并解析的机制 需要一个产生数据并发送的机制 2. 解析HTML 层次化的数据 有多个解析HTML的第三方库,例如:LXML,BeautifulSoup,HTMLParser等等。 解析HTML所面临的问题: 没有统一的标准。 很多网页并没有遵循HTML文档 2.1 BeautifulSoup...
分类:编程语言   时间:2015-06-26 09:24:22    阅读次数:202
关于如何下载安装html5lib解析器
http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#id49给出了如何安装,在windows系统下主要就是:pipinstallhtml5lib(被推荐用)那么问题来了,pip 不是系统内部命令,需要安装,在网址htt...
分类:Web程序   时间:2015-06-23 17:25:21    阅读次数:290
【安全】requests和BeautifulSoup小试牛刀
web安全的题,为了找key随手写的程序,无处安放,姑且贴上来。 1 # -*- coding: UTF-8 -*- 2 __author__ = 'weimw' 3 4 import requests 5 from BeautifulSoup import BeautifulSoup 6 7 .....
分类:其他好文   时间:2015-06-12 23:49:50    阅读次数:189
使用Python自动获取可用代理列表
今天闲来无事,随便写的一个从代理发布网站上提取可用代理列表的脚本。运行后,可以获取http://cn-proxy.com/发布的可用代理ip和端口的列表。运行效果如下:源代码如下,请指教:#-*-coding:utf-8-*- #Python:2.7.8 #Platform:Windows #Author:wucl #Program:从代理网站获取可..
分类:编程语言   时间:2015-06-12 01:10:08    阅读次数:252
python模块介绍- google 谷歌搜索引擎python接口
简介 google 模块是谷歌搜索引擎python接口,系用urllib2在google上进行搜索,使用BeautifulSoup进行解释外部封装,非google官方接口。 功能:谷歌搜索引擎python接口 类型:外部模块 当前版本:1.0.5(查看日期2...
分类:编程语言   时间:2015-06-10 10:34:55    阅读次数:313
Python BeautifulSoup 简单笔记
2013-07-30 22:54 by 江湖么名,2359阅读,0评论,收藏,编辑Beautiful Soup 是用 Python 写的一个 HTML/XML 的解析器,它可以很好的处理不规范标记并生成剖析树。通常用来分析爬虫抓取的web文档。对于 不规则的 Html文档,也有很多的补全功能,节省了...
分类:编程语言   时间:2015-06-03 17:17:34    阅读次数:174
Python开发安装的一些常用模块
一、BeautifulSoup模块 关于BeautifulSoup模块主要用于规范化网页源代码,利用其一些特定的解析标签函数来分析网页,的得到一些特定的内容,用起来方便简单容易入门,但仍然有一些弊端,比如说对于网页中含有js代码的就不能有效读取与分析,所以常结合正则表达式来进行使用,效率特别好 二、Scrapy + Selenium 模块 这两个模块结合起来使用常用于解析javascript...
分类:编程语言   时间:2015-05-31 01:28:59    阅读次数:162
Python脚本自动下载小说
本人喜欢在网上看小说,一直使用的是小说下载阅读器,可以自动从网上下载想看的小说到本地,比较方便。最近在学习Python的爬虫,受此启发,突然就想到写一个爬取小说内容的脚本玩玩。于是,通过在逐浪上面分析源代码,找出结构特点之后,写了一个可以爬取逐浪上小说内容的脚本..
分类:编程语言   时间:2015-05-28 14:23:38    阅读次数:318
python cralwer (爬虫)心得
最近用python做了个小crawler, 可以自动整理一些网站的内容,推送到当地文件中,做个小小的总结。 主要lib就是urllib 和 beautifulsoup. urllib和urllib2是很方便的网页提取库,核心就是发送各种自定义的url request,然后可以返回网页内容。 最简单的函数,判定一个网页是否存在: def isUrlExists(url): ...
分类:编程语言   时间:2015-05-26 10:49:11    阅读次数:190
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!