#-*-coding:utf-8 -*- import urllib import re import json import urllib2 from lxml import etree import requests import time from Queue import Queue fro... ...
分类:
编程语言 时间:
2017-11-06 20:14:23
阅读次数:
231
首先来看一下他们的区别 urllib和urllib2 urllib2可以接受一个Request类的实例来设置URL请求的headers,urllib仅可以接受URL。这意味着,你不可以通过urllib模块伪装你的User Agent字符串等(伪装浏览器)。 urllib提供urlencode方法用来 ...
分类:
Web程序 时间:
2017-11-05 23:29:32
阅读次数:
286
先去YY天气注册一个账号,然后就能用API了 http://www.yytianqi.com/ # encoding=utf-8import urllib.requestimport jsonimport collectionscityid = 'http://api.yytianqi.com/ob ...
分类:
编程语言 时间:
2017-11-05 16:33:55
阅读次数:
234
python中源码位置(以urllib为例):python中自带的模块:/usr/lib/python3.5/urllib/request.py(python3)/usr/lib/python2.7/urllib2.py(python2)python的第三方模块:/usr/local/lib/python2.7/site-packages/注意:关于urllib模块,python3中的导入方法为importurllib.request.方法..
分类:
其他好文 时间:
2017-11-04 23:41:18
阅读次数:
165
Python爬虫的学习,自动抓取163新闻的Python爬虫源码,这是一个用Python语言编写的,自动抓取网易新闻的python爬虫实现方法一文。 Python爬虫的抓取思路是:(1)通过分析目标新闻网址 ,分析其中以News.xxx.com 开头的链接(2)获取每一个链接的内容,并做整理合并到事 ...
分类:
编程语言 时间:
2017-11-04 23:32:06
阅读次数:
269
码云地址:https://gitee.com/nothingbigger/DouBantop250 所需编程语言:python 主要工作:代码补全及bug检查修改 部分代码: ...
分类:
其他好文 时间:
2017-11-03 20:29:34
阅读次数:
171
#19.1 使用动态属性转换数据"""#栗子19-2 osconfeed.py:下载 osconfeed.jsonfrom urllib.request import urlopenimport osimport warningsimport jsonimport sysURL = 'http:// ...
分类:
编程语言 时间:
2017-11-03 17:38:10
阅读次数:
190
大多数网站都会定义robots.txt文件,以让爬虫了解爬取该网站时存在的限制。在地址后面加/robots.txt查看 识别网站所用的技术:使用builtwith 因为这个包是用于python2的,python3在使用时要做一些修改。然后我们用一个charset包来检测网站的编码,修改后的完整内容如 ...
分类:
编程语言 时间:
2017-11-03 16:14:04
阅读次数:
250
闭包函数定义 应用场景 #闭包的意义:返回的函数对象,不仅仅是一个函数对象,在该函数外还包裹了一层作用域,这使得,该函数无论在何处调用,优先使用自己外层包裹的作用域 #应用领域:延迟计算(原来我们是传参,现在我们是包起来) from urllib.request import urlopen def ...
分类:
其他好文 时间:
2017-11-02 21:10:18
阅读次数:
150
import re import urllib.request # ------ 获取网页源代码的方法 --- def getHtml(url): page = urllib.request.urlopen(url) html = page.read() return html # ------ g... ...
分类:
编程语言 时间:
2017-11-02 14:32:33
阅读次数:
148