可以通过dir(BeautifulSoup.BeautifulSoup)查看其有什么函数,如果想知道某个函数的含义可以使用help(BeautifulSoup.BeautifulSoup.find)来查看其官方文档。
可以使用pprint来整输出,使用dir和help之前一定要import BeautifulSoup。
# -*- coding:utf8 -*-
import urll...
分类:
其他好文 时间:
2015-05-07 22:12:08
阅读次数:
150
第 0008 题:一个HTML文件,找出里面的正文。思路:我把这里的正文理解为网页中我主要内容,那么怎么去抓取这个主要内容呢?我一开始的想法是用beautifulsoup来解析网页,但是又想到如果要抽取正文的话这样做还涉及到比较复杂的算法,而且对于不同的网页来说效果可能做不到很好。后来我发现了Python-goose(Github)这个神器,它是基于NLTK和Beautiful Soup的,分别是文...
分类:
编程语言 时间:
2015-05-07 12:37:09
阅读次数:
757
学了一天python的写了个小工具接口调用的是:http://i.links.cn/subdomain/#coding:utf-8
#date:2015年5月4日
#author:sanr
importrequests,re
defdomain(url):
payload={‘domain‘:url,‘b2‘:‘1‘,‘b3‘:‘1‘,‘b4‘:‘1‘}
r=requests.get("http://i.links.cn/subdomain/",params=pa..
分类:
其他好文 时间:
2015-05-04 20:28:28
阅读次数:
200
8 Monitoring Performance and Troubleshooting
The Global Cache Block Access Latency chart shows data for two different types of data block requests: current and consistent-read (CR) blocks. When you u...
分类:
其他好文 时间:
2015-05-04 18:08:25
阅读次数:
181
这几天本想研究下用robotframework+HTTP library (Requests)来做接口测试(http协议), 安装完Requests库后,在RIDE里导入该库时显示是红色,即导入失败(正常导入应该显示为黑色),网上也没有搜索到有用的信息,于是这几天就不停的在公司的电脑和家里的电脑.....
分类:
其他好文 时间:
2015-05-03 10:28:27
阅读次数:
324
Python开发中时长遇到要下载文件的情况,最常用的方法就是通过Http利用urllib或者urllib2模块。当然你也可以利用ftplib从ftp站点下载文件。此外Python还提供了另外一种方法requests。下面来看看三种方法是如何来下载zip文件的:方法一:import urllib im...
分类:
编程语言 时间:
2015-05-01 00:27:20
阅读次数:
148
An asynchronous callback-based Http client for Android built on top of Apache’s HttpClient libraries. All requests are made outside of your app’s main...
分类:
移动开发 时间:
2015-04-28 22:47:35
阅读次数:
471
程序大概内容如下:
程序中设置两个队列分别为queue负责存放网址,out_queue负责存放网页的源代码。
ThreadUrl线程负责将队列queue中网址的源代码urlopen,存放到out_queue队列中。
DatamineThread线程负责使用BeautifulSoup模块从out_queue网页的源代码中提取出想要的内容并输出。
这只是一个基本的框架,可以根据需求继续扩展...
分类:
编程语言 时间:
2015-04-28 09:49:14
阅读次数:
164
Example:html文件:html_doc="""The Dormouse's storyThe Dormouse's storyOnce upon a time there were three little sisters; and their names wereElsie,Lacie a...
分类:
其他好文 时间:
2015-04-27 21:33:35
阅读次数:
119