数据源设置:数据处理逻辑:--处理丢失外键关系数据SELECT *FROM T_ReportLeafGradeWHERE FSubFID NOT IN ( SELECT FID FROM T_RaceLeafReport ) ...
分类:
其他好文 时间:
2014-11-13 20:26:16
阅读次数:
225
最近发现天涯论坛是一个挺有意思的网站,有各种乱七八糟的帖子足以填补无聊时候的空虚感,但是相当不爽的一件事就是天涯的分页模式下想连贯的把楼主的内容看完实在是太心酸了,一个999页的帖子,百分之九十都是无聊网友的灌水,有时候连续翻几十页才能找到楼主的一条内容。所以无聊之下,就打算写一个简单的爬虫,能一次...
分类:
编程语言 时间:
2014-11-12 22:57:44
阅读次数:
762
一、演绎自已的北爱踏上北漂的航班,开始演奏了我自已的北京爱情故事二、爬虫11、网络爬虫的思路首先:指定一个url,然后打开这个url地址,读其中的内容。其次:从读取的内容中过滤关键字;这一步是关键,可以通过查看源代码的方式获取。最后:下载获取的html的url地址,或者图片的url地址保存到本地2、...
分类:
编程语言 时间:
2014-11-12 22:31:28
阅读次数:
523
目前,SPARK在大数据处理领域十分流行。尤其是对于大规模数据集上的机器学习算法,SPARK更具有优势。一下初步介绍SPARK在linux中的部署与使用,以及其中聚类算法的实现。...
分类:
编程语言 时间:
2014-11-12 21:21:04
阅读次数:
264
6.1 物联网数据处理技术的基本概念 6.1.1 物联网数据的特点大规模存储系统的应用越来越广泛,存储容量也从以前的TB(Terabyte)级上升到PB(Petabyte)级甚至EB(Exabyte)级。随着存储系统规模不断增大,在大规模文件系统中,文件的数量高达几十亿个,在这种海量数据中查找和管理...
分类:
其他好文 时间:
2014-11-12 19:33:46
阅读次数:
5233
今天在用爬虫时gevent报了AssertionError: Impossible to call blocking function in the event loop callback异常,很奇怪,难道是patch_socket惹的货,因为之前没有使用patch_socket是正常的,代码简化如下import urllib
import gevent
from gevent.monkey im...
分类:
其他好文 时间:
2014-11-12 16:40:58
阅读次数:
340
Github博文地址,此处更新可能不是很及时。
1.背景
最近发现算法以及数据结构落下了不少(其实还是大学没怎么好好学,囧rz),考虑到最近的项目结构越来越复杂了,用它来练练思路,就打算复习下数据结构与算法。结合最近在学英语,然后干脆就用英文喽。然后选定一本参考书籍《Data Structures and Algorithms in Java》。
刚开始看还是蛮吃力的,慢慢来。由于之...
分类:
编程语言 时间:
2014-11-12 00:48:04
阅读次数:
285
转:http://blog.csdn.net/sdyy321/article/details/61834121、悲观锁,正如其名,它指的是对数据被外界(包括本系统当前的其他事务,以及来自外部系统的事务处理)修改持保守态度,因此,在整个数据处理过程 中,将数据处于锁定状态。悲观锁的实现,往往依靠数据库...
分类:
其他好文 时间:
2014-11-11 19:06:10
阅读次数:
263
1.简单变量信息将存储在哪里。要存储什么值。存储何种类型的值。int a=5;//程序找到一块能够存储整数的内存,将该内存单元标记为a,将5复制到该内存单元上。(1)变量名命名规则:a.在名称中只能使用字母字符、数字和下划线;b.名称的第一个字符不能是数字;c.区别大小写;d.不能将关键字用作名称;...
分类:
编程语言 时间:
2014-11-11 18:56:51
阅读次数:
304
我们知道所谓ETL步骤其实就是把数据从源系统加载到数据仓库或数据集市的操作,并在此过程中实现数据的清洗及转换。除了数据的清洗转换之外,一次ETL的过程中另一个十分重要的部分就是:本次抽取能不能直接定位到上次数据处理后变动的数据,即增量抽取(IncrementalLoad)。取决于..
分类:
其他好文 时间:
2014-11-11 14:31:47
阅读次数:
213