全世界每天都有几十亿人使用计算机、平板电脑、手机和其它数字设备产生海量数据。在这个各个行业和领域都已经被数据给渗透,数据已成为非常重要的生产因素的大数据时代,对于大数据处理和大数据挖掘将意味着新一波的生产率不断增长和消费者盈余浪潮的到来。 在大数据时代下,从头至尾我们都脱离不了数据挖掘。有人把...
分类:
其他好文 时间:
2014-10-15 11:32:10
阅读次数:
248
package com.hpu.bai;import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileOutputStream;import java.io.Fil...
分类:
其他好文 时间:
2014-10-15 03:19:59
阅读次数:
201
#!/usr/bin/env python#coding=utf-8import threadingimport urllibimport reimport timecur=0last=0totalcount=0depth=0t_mutex=threading.Condition() class M...
分类:
编程语言 时间:
2014-10-15 00:21:09
阅读次数:
297
最近闲着没事想看小说,找到一个全是南派三叔的小说的网站,决定都下载下来看看,于是动手,在很多QQ群里高手的帮助下(本人正则表达式很烂,程序复杂的正则都是一些高手指导的),花了三四天写了一个脚本
需要 BeautifulSoup 和 requests 两个库
(我已经把注释写得尽量详细)
这个程序的执行速度很慢,求高手告诉我优化的方法!!
#-*-coding:utf8-*-
from...
分类:
编程语言 时间:
2014-10-14 15:47:19
阅读次数:
227
对于Orchard来说,个人以为要真正理解Orchard,必须理解其路由工作方式。一、Orchard的自定义路由由三种类型组成1、分发类: HubRoute:其功能是按租户筛选出当前访问租户的路由2、容器类: shellRoute:其功能是按当前租户路由,如果此时没有其它路由,路由数据处理后,交由M...
分类:
其他好文 时间:
2014-10-14 14:31:58
阅读次数:
175
网站建设好了,当然是希望网页被搜索引擎收录的越多越好,但有时候我们也会碰到网站不需要被搜索引擎收录的情况。 比如,你要启用一个新的域名做镜像网站,主要用于PPC 的推广,这个时候就要想办法屏蔽搜索引擎蜘蛛抓取和索引我们镜像网站的所有网页。因为如果镜像网站也被搜索引擎收录的话,很有可能会影响官网...
分类:
Web程序 时间:
2014-10-14 14:09:48
阅读次数:
207
最近在维护一个wordpress商城项目,商城是多站的,会为独立的站创建出几张表。项目在测试服务器上,貌似是被爬虫恶意注册,产生了几千个用户,就产生了几万张表,导致数据库导入导出都像蜗牛一样,慢得要死,所以就只能上服务器执行SQL删除了,先暂时关闭了注册的功能,由于注..
分类:
数据库 时间:
2014-10-14 05:21:18
阅读次数:
434
采用了多线程和锁机制,实现了广度优先算法的网页爬虫。对于一个网络爬虫,如果要按广度遍历的方式下载,它就是这样干活的: 1.从给定的入口网址把第一个网页下载下来 2.从第一个网页中提取出所有新的网页地址,放入下载列表中 3.按下载列表中的地址,下载所有新的网页 4.从所有新的网页中找出没有下载过的网页...
分类:
编程语言 时间:
2014-10-13 22:44:27
阅读次数:
248
在我们开发一些项目的时候,一般需要一些外围的设备进行数据处理,如ID/IC读卡器获取卡号、激光条码扫描枪、USB摄像头、USB方式的小票据打印机(POS打印机)、USB来电录音盒、普通打印机等一系列附属设备。借助这些设备,可以使我们的业务流程更严谨,输入数据更方便,或者能够一些特殊的数据等功能。本文...
前不久项目开发过程中,使用的是Entity Framework做数据处理。因为本人也不是对EF太有研究,只是会用而已,但是在一次需要查询的结果需要关联3、4个表来查询出来结果,并且对查询效率也有要求。但是个人觉得遇到这样的情况还是使用原始SQL语句来查询更为可控(或许EF中有更好的方法可以解决此类问...
分类:
数据库 时间:
2014-10-13 14:58:29
阅读次数:
272