最近在广告投放时需要找到一批强项关的人群, 现在发现了指定的一些URL可能会跟给广告相关,所以需要对每个URL 的网页内容进行解析,以便能判断URL 是否与该广告相关.
我这里使用python中的urllib或urllib包对URL 的内容提取.方法如下:
#!/usr/bin/python
# -*- coding: utf-8 -*-
import urllib2
import re
u...
分类:
Web程序 时间:
2015-03-29 01:56:23
阅读次数:
229
Package Control是针对ST2的包管理器。Package Control的安装安装好ST2之后,从Views - Show Console或者Ctrl+~调出console.将以下python代码粘贴进去并enter执行,即可完成安装:import urllib2,os; pf='Pac...
分类:
其他好文 时间:
2015-03-28 17:15:05
阅读次数:
191
目录人性化的HTTPRequests 是使用 Apache2 Licensed 许可证的 HTTP 库。用 Python 编写,真正的为人类着想。Python 标准库中的 urllib2 模块提供了你所需要的大多数 HTTP 功能,但是它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它...
分类:
编程语言 时间:
2015-03-20 12:41:01
阅读次数:
127
import ssl
import json
from PIL import Image
import urllib
import re
import urllib.request as urllib2
if hasattr(ssl, '_create_unverified_context'):
ssl.create_default_context = ssl._create_unveri...
分类:
编程语言 时间:
2015-03-17 12:27:48
阅读次数:
172
#-*- coding:UTF-8 -*-import urllib,urllib2,cookielibimport xml.etree.ElementTree as etree#xml解析类class Login163:#伪装browser header = {'User-Agent':'Mozi...
分类:
编程语言 时间:
2015-03-14 21:33:52
阅读次数:
174
搬运自http://www.2cto.com/kf/201309/242273.html,感谢原作。之所以出现上面的异常,是因为如果用 urllib.request.urlopen 方式打开一个URL,服务器端只会收到一个单纯的对于该页面访问的请求。但是服务器并不知道发送这个请求使用的浏览器,操作系...
分类:
编程语言 时间:
2015-03-14 10:50:55
阅读次数:
170
下载地址Sublime下载地址安装 Package Control在Sublime中,按Ctrl+~打开控制台,输入:import urllib2,os; pf='Package Control.sublime-package'; ipp=sublime.installed_packages_path(); os.makedirs(ipp) if not os.path.exists(ipp) el...
分类:
其他好文 时间:
2015-03-13 12:46:40
阅读次数:
7878
在使用Python对一些网站的数据进行采集时,经常会遇到需要登录的情况。这些情况下,使用FireFox等浏览器登录时,自带的调试器(快捷键F12)就可以看到登录的时候网页向服务器提交的信息,把这部分信息提取出来就可以利用Python的urllib2库结合Cookie进行模拟登录然后采集数据,..
分类:
编程语言 时间:
2015-03-12 01:06:48
阅读次数:
4418
1.打开sublime,查看 -> 控制台,键入以下代码sublime 2:import urllib2,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a3098092775ccb37ca9d6b2e4b7d'; pf = 'Pa...
分类:
Web程序 时间:
2015-03-11 16:28:12
阅读次数:
6184