码迷,mamicode.com
首页 >  
搜索关键字:beautifulsoup    ( 1186个结果
新浪明星日志推荐系统——爬虫爬取数据(2)
由于之前的改造,现在将爬虫的功能做了一些改变,具体实现的功能是将推荐的日志全部抓取下来,并存放在以文章标题命名的文件中,代码如下: import urllib import os,re import sys from bs4 import BeautifulSoup reload(sys) sys.setdefaultencoding("utf-8") def if_st...
分类:其他好文   时间:2015-05-26 09:10:41    阅读次数:229
python爬虫第一课,制作搜索引擎
from BeautifulSoup import * from urlparse import urljoin ignaorewords=set(['the','of','to','and','a','in','is','it']) 我们的搜索引擎基于关键词, 所以将连词,冠词忽略 下面的代码是爬虫, 将网页的文本数据存储到我们的sqlite中, 大家看不懂也没有关系, 知道这些函...
分类:编程语言   时间:2015-05-25 13:07:15    阅读次数:275
win7下安装easy_install
今天在用ipython跑爬虫代码,需要导入下面这两个包,由于我的ipython里面没有,需要安装,所有用到了easy_installfromseleniumimportwebdriverfrombs4importBeautifulSoupeasy_install安装过程如下:1、首先下载setuptools,具体下载地址如下:http://pypi.python.org/pypi/setu..
分类:Windows程序   时间:2015-05-22 19:23:40    阅读次数:202
python 爬虫爬取腾讯新闻科技类的企鹅智酷系列(1)
废话不多说,直接贴代码,主要采用BeautifulSoup写的 # -*- coding: utf-8 -*- """ Created on Mon May 18 19:12:06 2015 @author: Administrator """ import urllib import os from bs4 import BeautifulSoup impo...
分类:编程语言   时间:2015-05-19 10:44:07    阅读次数:145
Python网络编程小例子:使用python获取网站域名信息
本文使用python,结合beautifulsoup,chardet,通过解析网页的方式,使用中国站长的接口,获取whois信息。...
分类:编程语言   时间:2015-05-13 22:03:08    阅读次数:564
Beautifulsoup 使用笔记
1.在线文档 http://www.crummy.com/software/BeautifulSoup/bs4/doc/ 2.常用方法 选择器 find_all(name, attrs, recursive, text, limit, **kwargs) 3.主要调用方法 4.完整代码 #-*- coding:utf-8 -*- from bs4 import B...
分类:其他好文   时间:2015-05-12 11:29:48    阅读次数:118
爬虫Scrapy学习指南之抓取新浪天气
scrapy有一个简单的入门文档,大家可以参考一下,我感觉官方文档是最靠谱的,也是最真实的。 首先我们先创建一个scrapy的项目 scrapy startproject weather 我采用的是ubuntu12.04的系统,建立项目之后主文件夹就会出现一个weather的文件夹。我们可以通过tree来查看文件夹的结构。可以使用sudoapt-get insta...
分类:其他好文   时间:2015-05-11 13:00:48    阅读次数:130
Python Show-Me-the-Code 第 0009 题 提取网页中的超链接
第 0009 题:一个HTML文件,找出里面的链接。思路:对于提取网页中的超链接,先把网页内容读取出来,然后用beautifulsoup来解析是比较方便的。但是我发现一个问题,如果直接提取a标签的href,就会包含javascript:xxx和#xxx之类的,所以要对这些进行特殊处理。0009.提取网页中的超链接.py#!/usr/bin/env python #coding: utf-8 from...
分类:编程语言   时间:2015-05-08 20:19:25    阅读次数:129
#爬虫必备,解析html文档----beautifulsoup的简单用法
#出处:http://mp.weixin.qq.com/s?__biz=MjM5NzU0MzU0Nw==&mid=201820961&idx=2&sn=b729466f334d64b2c36e05e65235fdd1#rd#获取html文档# import urllib,urllib2# url=u...
分类:Web程序   时间:2015-05-08 12:18:35    阅读次数:112
BeautifulSoup模块的简单使用
可以通过dir(BeautifulSoup.BeautifulSoup)查看其有什么函数,如果想知道某个函数的含义可以使用help(BeautifulSoup.BeautifulSoup.find)来查看其官方文档。 可以使用pprint来整输出,使用dir和help之前一定要import BeautifulSoup。 # -*- coding:utf8 -*- import urll...
分类:其他好文   时间:2015-05-07 22:12:08    阅读次数:150
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!