由于之前的改造,现在将爬虫的功能做了一些改变,具体实现的功能是将推荐的日志全部抓取下来,并存放在以文章标题命名的文件中,代码如下:
import urllib
import os,re
import sys
from bs4 import BeautifulSoup
reload(sys)
sys.setdefaultencoding("utf-8")
def if_st...
分类:
其他好文 时间:
2015-05-26 09:10:41
阅读次数:
229
from BeautifulSoup import *
from urlparse import urljoin
ignaorewords=set(['the','of','to','and','a','in','is','it'])
我们的搜索引擎基于关键词, 所以将连词,冠词忽略
下面的代码是爬虫, 将网页的文本数据存储到我们的sqlite中, 大家看不懂也没有关系, 知道这些函...
分类:
编程语言 时间:
2015-05-25 13:07:15
阅读次数:
275
今天在用ipython跑爬虫代码,需要导入下面这两个包,由于我的ipython里面没有,需要安装,所有用到了easy_installfromseleniumimportwebdriverfrombs4importBeautifulSoupeasy_install安装过程如下:1、首先下载setuptools,具体下载地址如下:http://pypi.python.org/pypi/setu..
废话不多说,直接贴代码,主要采用BeautifulSoup写的
# -*- coding: utf-8 -*-
"""
Created on Mon May 18 19:12:06 2015
@author: Administrator
"""
import urllib
import os
from bs4 import BeautifulSoup
impo...
分类:
编程语言 时间:
2015-05-19 10:44:07
阅读次数:
145
本文使用python,结合beautifulsoup,chardet,通过解析网页的方式,使用中国站长的接口,获取whois信息。...
分类:
编程语言 时间:
2015-05-13 22:03:08
阅读次数:
564
1.在线文档 http://www.crummy.com/software/BeautifulSoup/bs4/doc/
2.常用方法
选择器 find_all(name, attrs, recursive, text, limit, **kwargs)
3.主要调用方法
4.完整代码
#-*- coding:utf-8 -*-
from bs4 import B...
分类:
其他好文 时间:
2015-05-12 11:29:48
阅读次数:
118
scrapy有一个简单的入门文档,大家可以参考一下,我感觉官方文档是最靠谱的,也是最真实的。
首先我们先创建一个scrapy的项目
scrapy startproject weather
我采用的是ubuntu12.04的系统,建立项目之后主文件夹就会出现一个weather的文件夹。我们可以通过tree来查看文件夹的结构。可以使用sudoapt-get
insta...
分类:
其他好文 时间:
2015-05-11 13:00:48
阅读次数:
130
第 0009 题:一个HTML文件,找出里面的链接。思路:对于提取网页中的超链接,先把网页内容读取出来,然后用beautifulsoup来解析是比较方便的。但是我发现一个问题,如果直接提取a标签的href,就会包含javascript:xxx和#xxx之类的,所以要对这些进行特殊处理。0009.提取网页中的超链接.py#!/usr/bin/env python
#coding: utf-8
from...
分类:
编程语言 时间:
2015-05-08 20:19:25
阅读次数:
129
#出处:http://mp.weixin.qq.com/s?__biz=MjM5NzU0MzU0Nw==&mid=201820961&idx=2&sn=b729466f334d64b2c36e05e65235fdd1#rd#获取html文档# import urllib,urllib2# url=u...
分类:
Web程序 时间:
2015-05-08 12:18:35
阅读次数:
112
可以通过dir(BeautifulSoup.BeautifulSoup)查看其有什么函数,如果想知道某个函数的含义可以使用help(BeautifulSoup.BeautifulSoup.find)来查看其官方文档。
可以使用pprint来整输出,使用dir和help之前一定要import BeautifulSoup。
# -*- coding:utf8 -*-
import urll...
分类:
其他好文 时间:
2015-05-07 22:12:08
阅读次数:
150