之前用python爬取网页的时候,一直用的是regex或者自带的库sgmllib里的SGMLParser。但是遇到复杂一点的情况时,SGMLParser往往就不那么给力了!(哈,难道说我 too native了?毕竟beautifulSoup是继承sgmlparser的么~)所以,我寻寻觅觅寻寻觅觅...
分类:
编程语言 时间:
2015-03-18 06:22:14
阅读次数:
257
上篇中的程序实现了抓取0daydown最新的10页信息,输出是直接输出到控制台里面。再次改进代码时我准备把它们写入到一个TXT文档中。这是问题就出来了。
最初我的代码如下:
#-*- coding: utf-8 -*-
#-------------------------------------
#version: 0.1
#note:实现了查找0daydown最新发布的10页资源。
#---...
分类:
Web程序 时间:
2015-03-17 00:52:13
阅读次数:
323
主要就是用了两个库,urllib和BeautifulSoup.作用是从HTML中解析出解梦的查询词和具体的解释。 1 # -*- coding: utf-8 -*- 2 import urllib, urllib2 3 import time, random 4 from BeautifulSoup...
分类:
编程语言 时间:
2015-03-01 14:23:32
阅读次数:
189
>>> dir(soup)['ASCII_SPACES', 'DEFAULT_BUILDER_FEATURES', 'HTML_FORMATTERS', 'ROOT_TAG_NAME', 'XML_FORMATTERS', '__bool__', '__call__', '__class__', '...
分类:
其他好文 时间:
2015-02-28 14:30:28
阅读次数:
174
包括Python,eclipse,jdk,pydev,pip,setuptools,beautifulsoup,pyyaml,nltk,mysqldb的下载安装配置。*************************************************python下载:python-2....
分类:
编程语言 时间:
2015-02-26 18:08:07
阅读次数:
183
#---------------------------------import---------------------------------------
#coding:utf-8
import urllib2;
from BeautifulSoup import BeautifulSoup;
#-----------------------------------------------...
分类:
编程语言 时间:
2015-02-21 09:46:47
阅读次数:
256
年前有个坑爹的需求来了,要把某点评网商户数据都给获取下来存储于数据库,好啦其实这个东西是蛮简单的;首先到点评网把城市数据给拷贝下来,当然你也可以写个脚本把数据抓取下来,不够我没这么干;好了下面是用于抓取数据的脚本,下面我分享下给大家:城市列表:alashan|57|阿拉善anshan|58|鞍山an...
分类:
其他好文 时间:
2015-02-16 00:21:42
阅读次数:
880
# -*- coding=utf-8 -*-
import urllib2
from BeautifulSoup import BeautifulSoup as bs3
import json
import codecs
#字符检测,用来检测其真实的编码格式
import chardet
#save content to file
def save_to_file(filename, co...
分类:
Web程序 时间:
2015-02-14 23:51:34
阅读次数:
333
以汽车之家为例子,抓取页面并进行解析
# -*- coding=utf-8 -*-
import urllib2
from BeautifulSoup import BeautifulSoup as bs3
import json
import codecs
#字符检测,用来检测其真实的编码格式
import chardet
#save content to file
def save_...
分类:
其他好文 时间:
2015-02-14 17:35:13
阅读次数:
178
最先想试试python的爬虫功能,于是用easy_install安装了beautifulsoup,下面是我写的demo代码,可以简单看看
#coding=utf-8
import urllib2
from BeautifulSoup import BeautifulSoup as bs
url_addr = 'http://car.autohome.com.cn/baoyang/detail...
分类:
编程语言 时间:
2015-02-12 18:28:39
阅读次数:
208