这个框架关注了很久,但是直到最近空了才仔细的看了下这里我用的是scrapy0.24版本先来个成品好感受这个框架带来的便捷性,等这段时间慢慢整理下思绪再把最近学到的关于此框架的知识一一更新到博客来。先说明下这个玩具爬虫的目的能够将种子URL页面当中的小组进行爬取并分析出有..
分类:
数据库 时间:
2014-11-28 06:28:08
阅读次数:
491
tag作用:编写调用tag实现代码复用。能防止用户直接访问tag页面。Include只能做到代码复用,但是不能防止用户在地址栏直接输入地址访问。优点: 1.实现代码的复用 2.分离数据处理代码和数据显示代码,便于web应用的维护,和再开发tag文件的保存:保存在WEB-INF/tags/下tag标记...
分类:
Web程序 时间:
2014-11-27 23:21:57
阅读次数:
691
这是我的一位同学传给我的一个小的网页爬虫程序,觉得挺有意思的,和大家分享一下。不过有一点需要注意,要用python2.3,如果用python3.4会有些问题出现。...
分类:
编程语言 时间:
2014-11-27 22:09:33
阅读次数:
273
老严要爬某网购网站的商品信息,正好我最近在学python,就一起写了一个简单的爬虫程序。需求:某网的商品信息,包括商品名,市场价和售价工具:python2.7.8,urllib2,re#coding = utf-8import urllib2import repath = "aaa.txt"f = ...
分类:
编程语言 时间:
2014-11-27 06:46:13
阅读次数:
124
分类:大数据接触这块将近3个月左右,期间给自己的定位也是业务层开发。对平台级的产品没有太深入的理解和研究,所以也不能大谈特谈什么storm架构之类的了。说说业务中碰到流式计算问题吧:1.还是要介绍下简要的架构(原谅我不会画图)流式数据接入层------------------->流式数据处理层---...
分类:
其他好文 时间:
2014-11-26 20:47:03
阅读次数:
253
一:大数组转存到文件里,可以考虑逐行写入,并配合多进程来写入/* * 参 数:$file 字符串 文件名 * $key 字符串 数组键名 * $value 字符串 数组键值 * $step 字符串 当前程序步骤,只有三个值:初始化init/执行中doing/完成done * ...
分类:
其他好文 时间:
2014-11-26 16:15:49
阅读次数:
223
1. 关于ID3和C4.5的原理介绍这里不赘述,网上到处都是,可以下载讲义c9641_c001.pdf或者参考李航的《统计学习方法》.2. 数据与数据处理本文采用下面的训练数据:数据处理:本文只采用了"Outlook", "Humidity", "Windy"三个属性,然后根据Humidity的值是...
分类:
编程语言 时间:
2014-11-26 14:01:11
阅读次数:
288
2014年11月18日---ComponentOneStudioEnterprise2014v3版全球正式发布。ComponentOneStudioEnterprise是世界知名的MicrosoftVisualStudio的数据处理和UI控件的套装,包括WindowsStore,WindowsDesktop和HTML5。新版本主要集中于优化性能,丰富数据分析功能,以及为软件开发人员..
分类:
Web程序 时间:
2014-11-25 19:00:33
阅读次数:
182
有个django的定时任务,调用django的orm来对数据库进行数据处理。
在交互环境下直接启动pyhton脚本没有问题,放在定时任务中时候,总是出现
(2006, 'MySQL server has gone away')
的错误,开始以为是定时框架外部调用的问题,但是后来想想也不合理,为啥直接在shell中调用就没错呢,
想到django1.6的一些数据库连接的新属性(...
分类:
数据库 时间:
2014-11-25 14:31:15
阅读次数:
297
2014年11月18日---ComponentOne Studio Enterprise 2014 v3版全球正式发布。ComponentOne Studio Enterprise是世界知名的Microsoft Visual Studio的数据处理和UI 控件的套装,包括 Windows Store, Windows Desktop 和HTML5。 新版本主要集中于优化性能,丰富数据分析功能,以及为软件开发人员和架构师提供最前沿的Web 技术。...
分类:
Web程序 时间:
2014-11-25 12:45:05
阅读次数:
181