Python简单的爬虫最简单的爬虫# -*- coding : utf-8 -*-
import urlliburl = 'http://www.baidu.com'html = urllib.urlopen(url)print html.read()也可以打印出网页的其他信息#获取状态码
print html.getcode()#获取传入的参数
print html.geturl()#获取网页的h...
分类:
编程语言 时间:
2015-08-01 22:05:27
阅读次数:
144
来源http://my.oschina.net/u/999436/blog/113317我尝试着找找python3.3.0的change log。里面并没有找到urllib的修改记录。然而这一修改记录却在python3.0的change log中。原文是这样写的:a newurllibpackage...
分类:
编程语言 时间:
2015-07-31 19:57:18
阅读次数:
126
使用Pythonfind函数和urllib下载图片。#!/usr/bin/envpython
importtime
importurllib
i=0
url=[‘‘]*10
name=[‘‘]*10
con=urllib.urlopen(‘http://www.ithome.com/html/bizhi/164396.htm‘).read()
src=con.find(r‘/newsuploadfiles‘)
end=con.find(r‘.jpg‘,src)
name[0]=con[sr..
分类:
编程语言 时间:
2015-07-30 23:39:28
阅读次数:
206
#encoding:UTF-8
import urllib
import urllib.request
# data是一个字典,然后通过urllib.parse.urlencode()将data转换为'wd = 904727147'的字符串
#最后和url合并为full_url
# urllib.request是一个库,隶属urllib,urllib是一个收集了很多处理url的包,开放网址的可扩展...
分类:
编程语言 时间:
2015-07-30 23:30:34
阅读次数:
201
#encoding:UTF-8
import?urllib
import?urllib.request
#?data是一个字典,然后通过urllib.parse.urlencode()将data转换为‘wd?=?904727147‘的字符串
#最后和url合并为full_url
#?urllib.request是一个库,隶...
分类:
编程语言 时间:
2015-07-30 21:35:50
阅读次数:
152
一,我是如何使用Python抓取网页的我知道Python有一个爬虫框架scrapy,但是目前还没有学习,并且也没有什么很棘手的的问题需要去使用一个爬虫框架,所以我就用Python自带的urllib,将目标网页爬下来,然后用正则过滤出自己需要的内容。二,效率问题上面的方法简单,真的是上手即用,但是问题是效率问题,如果一个网页一个网页的抓,显然带宽无法达到最高,浪费了大部分带宽,这时候大部分人都会想到,...
分类:
编程语言 时间:
2015-07-30 00:46:17
阅读次数:
253
一个简单的python程序,用于下载pdf/txt/ppt等网页资源下载。import urllib
import urllib2
import re
import socket#######################You may change here###############
baseurl = '##########' #请自行添加下载网页地址
format = '(pdf...
分类:
Web程序 时间:
2015-07-28 16:03:14
阅读次数:
132
#-*-coding:utf-8-*-
#urllib用于访问不需要验证的网络资源
#urllib.urlretrave(url,tempfile,functionLodingProcess,[form_data])提供了下载资源的功能。所需参数如其名,
#不给定临时文件时,自动生成,返回文件名,和执行信息。
#get和post是http的两种常用的方法,get--&g..
分类:
编程语言 时间:
2015-07-28 14:51:49
阅读次数:
201
一.urllib模块介绍importurllib先看个小例子,打印结果为一个socket连接示例一:importurllib
url=r‘http://www.baidu.com‘
fp=urllib.urlopen(url)
printfp>>><addinfourlat43317888whosefp=<socket._fileobjectobjectat0x02947530>>>>>1.基本..
分类:
编程语言 时间:
2015-07-28 06:46:56
阅读次数:
178
使用Python编写的图片爬虫作业: 1 #coding=utf-8 2 3 import urllib 4 import re 5 6 def getPage(url): 7 #urllib.urlopen(url[, data[, proxies]]) : 8 #创建一个表示...
分类:
编程语言 时间:
2015-07-26 11:05:31
阅读次数:
124