一、Package Control 安装方法 单击View > Show Console 输入以下代码并重启Sublime:import urllib.request,os; pf = 'Package Control.sublime-package'; ipp = sublime.install....
分类:
其他好文 时间:
2015-11-09 18:49:53
阅读次数:
335
思路::(本文没有用xpath定位,xpath需要导入第三方库 from lxml import etree)1.首先通过urllib类获取到网页的所有内容2.通过partition获取其中的部分内容3.在通过指定内容放到放到一个list中1!代码如下:#encoding: utf-8import....
分类:
编程语言 时间:
2015-11-07 00:51:38
阅读次数:
324
1 #-*- coding:utf-8 -*- 2 #author: lichmama 3 #email: nextgodhand@163.com 4 #filename: httpd.py 5 import io 6 import os 7 import sys 8 import urllib ....
分类:
编程语言 时间:
2015-11-01 20:58:16
阅读次数:
293
# -*- coding: utf-8 -*-import Image, cStringIO, webbrowser, re, time, mathimport urllib, urllib2, cookielibfrom HTMLParser import HTMLParserimport sys...
分类:
其他好文 时间:
2015-10-31 15:39:29
阅读次数:
635
__author__ = ‘apple‘
import requests
import urllib
import re
import base64
def decode_base64(data):
"""Decode base64, padding being optional.
:param data: Base64 data as an...
分类:
编程语言 时间:
2015-10-29 23:38:10
阅读次数:
314
html.parser?HTMLParser??
urllib.request?urlopen??
urllib?parse
LinkParser(HTMLParser):
????handle_starttag(,?tag,?attrs):
????????tag?==?:
????????????(key,?val...
分类:
编程语言 时间:
2015-10-29 01:00:57
阅读次数:
533
无论你是由于什么原因想做一个网络爬虫,首先做的第一件事情就是要了解它。在了解网络爬虫之前一定要牢记以下4个要点,这是做网络爬虫的基础:1.抓取py的urllib不一定去用,但是要学,如果你还没用过的话。比较好的替代品有requests等第三方更人性化、成熟的库,如果pyer不了解各种库,那就白学了。...
分类:
其他好文 时间:
2015-10-26 00:24:35
阅读次数:
259
import urllib.requestimport osdef url_open(url): req = urllib.request.Request(url) req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.2; WO...
分类:
其他好文 时间:
2015-10-24 08:57:29
阅读次数:
186
python3.5中把python中的urllib和urllib2模块合并为urllib模块啦。urllib模块下有五个类: 抓取指定URL下内容封装成一个类文件对象,其中的很多方法操作和文件操作是一样的。
分类:
编程语言 时间:
2015-10-21 09:22:33
阅读次数:
280
广度优先算法:# -*- coding: utf-8 -*- import urllibimport urllib.requestfrom bs4 import BeautifulSoupimport threadingmylock = threading.RLock()class Crawler:...
分类:
编程语言 时间:
2015-10-20 17:44:52
阅读次数:
278