搜索关键字：beautifulsoup，搜索到1186个结果！码迷,mamicode.com！

爬腾讯视频所有类型的电影

未完待续！ 1 #coding: utf-8 2 import re 3 import urllib2 4 from bs4 import BeautifulSoup 5 import time 6 import xlwt 7 import sys 8 reload(sys) 9 ...

分类：其他好文时间：2015-06-28 21:21:14 阅读次数：195

python 解析HTML

1. 理解网页上的数据网页上的数据主要有： HTML XHTML XML JSON 需要一个接受数据并解析的机制需要一个产生数据并发送的机制 2. 解析HTML 层次化的数据有多个解析HTML的第三方库，例如：LXML，BeautifulSoup，HTMLParser等等。解析HTML所面临的问题：没有统一的标准。很多网页并没有遵循HTML文档 2.1 BeautifulSoup...

分类：编程语言时间：2015-06-26 09:24:22 阅读次数：202

关于如何下载安装html5lib解析器

http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#id49给出了如何安装，在windows系统下主要就是：pipinstallhtml5lib（被推荐用）那么问题来了，pip 不是系统内部命令，需要安装，在网址htt...

分类：Web程序时间：2015-06-23 17:25:21 阅读次数：290

【安全】requests和BeautifulSoup小试牛刀

web安全的题，为了找key随手写的程序，无处安放，姑且贴上来。 1 # -*- coding: UTF-8 -*- 2 __author__ = 'weimw' 3 4 import requests 5 from BeautifulSoup import BeautifulSoup 6 7 .....

分类：其他好文时间：2015-06-12 23:49:50 阅读次数：189

使用Python自动获取可用代理列表

今天闲来无事，随便写的一个从代理发布网站上提取可用代理列表的脚本。运行后，可以获取http://cn-proxy.com/发布的可用代理ip和端口的列表。运行效果如下：源代码如下，请指教：#-*-coding:utf-8-*- #Python:2.7.8 #Platform:Windows #Author:wucl #Program:从代理网站获取可..

分类：编程语言时间：2015-06-12 01:10:08 阅读次数：252

python模块介绍- google 谷歌搜索引擎python接口

简介 google 模块是谷歌搜索引擎python接口，系用urllib2在google上进行搜索，使用BeautifulSoup进行解释外部封装，非google官方接口。功能：谷歌搜索引擎python接口类型：外部模块当前版本：1.0.5（查看日期2...

分类：编程语言时间：2015-06-10 10:34:55 阅读次数：313

Python BeautifulSoup 简单笔记

2013-07-30 22:54 by 江湖么名,2359阅读,0评论,收藏,编辑Beautiful Soup 是用 Python 写的一个 HTML/XML 的解析器，它可以很好的处理不规范标记并生成剖析树。通常用来分析爬虫抓取的web文档。对于不规则的 Html文档，也有很多的补全功能，节省了...

分类：编程语言时间：2015-06-03 17:17:34 阅读次数：174

Python开发安装的一些常用模块

一、BeautifulSoup模块关于BeautifulSoup模块主要用于规范化网页源代码，利用其一些特定的解析标签函数来分析网页，的得到一些特定的内容，用起来方便简单容易入门，但仍然有一些弊端，比如说对于网页中含有js代码的就不能有效读取与分析，所以常结合正则表达式来进行使用，效率特别好二、Scrapy + Selenium 模块这两个模块结合起来使用常用于解析javascript...

分类：编程语言时间：2015-05-31 01:28:59 阅读次数：162

Python脚本自动下载小说

本人喜欢在网上看小说，一直使用的是小说下载阅读器，可以自动从网上下载想看的小说到本地，比较方便。最近在学习Python的爬虫，受此启发，突然就想到写一个爬取小说内容的脚本玩玩。于是，通过在逐浪上面分析源代码，找出结构特点之后，写了一个可以爬取逐浪上小说内容的脚本..

分类：编程语言时间：2015-05-28 14:23:38 阅读次数：318

python cralwer (爬虫)心得

最近用python做了个小crawler，可以自动整理一些网站的内容，推送到当地文件中，做个小小的总结。主要lib就是urllib 和 beautifulsoup. urllib和urllib2是很方便的网页提取库，核心就是发送各种自定义的url request,然后可以返回网页内容。最简单的函数，判定一个网页是否存在： def isUrlExists(url): ...

分类：编程语言时间：2015-05-26 10:49:11 阅读次数：190

共1186条上一页 1 ... 108 109 110 111 112 ... 119 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)