码迷,mamicode.com
首页 >  
搜索关键字:爬虫 数据处理    ( 15133个结果
TeamWork#3,Week5,Scrum Meeting 11.4
今天我们进行了第一次ScrumMeeting,总结了最近一段时间的工作成果和经验教训,并分配了每个成员下一步的工作。网络爬虫对我们来说是一个难点,因为之前接触比较少,所以需要从头学起。我们参考了大量的同类工程,从中学到了很多实用的知识,并且有了一个初步的简单架构。在一周之内会我们实现APP与服务器数...
分类:其他好文   时间:2014-11-04 14:37:02    阅读次数:175
定向爬虫简易学习指南(二)网页解析(基于算法)
这里介绍两种方式:将html加载未dom树,计算文字连接比将html作为文本,计算出行块分布性能比较:1000个网页: 行块分布函数:29秒 dom数文字连接比:66秒分析:加载为dom树会很费时间。
分类:编程语言   时间:2014-11-04 12:55:41    阅读次数:183
网络基础知识
计算机网络是指由通讯线路相互连接的许多自主工作的计算机构成的集合体;比计算机网络更高级的是分布式系统:在计算机网络的基础上为用户提供了透明的集成应用环境。用户可以用名字或命令调用网络中的任何资源或进行远程的数据处理,而不必考虑这些资源或数据的地理位置。与计算机网络类似的是多级系统:指同一机房中毒的许...
分类:其他好文   时间:2014-11-04 00:08:17    阅读次数:176
Data Mining
数据探索: 数据探索有助于选择合适的数据处理与数据分析技术、它甚至可以解决一些数据挖掘问题。 1、汇总统计:量化用单个数或数据的集合展示数据的特性; 如集合的平均值、方差。 2、可视化技术:以图形或表格的形式展示; 如直方图、散布图。 3、OLAP:通过多个属性的限制...
分类:其他好文   时间:2014-11-03 22:08:57    阅读次数:197
阿里云-采云间DPC
阿里云-采云间DPC 数据集成 支持本地数据上传和RDS数据同步到ODPS;持续增加更多数据源之间的相互同步,实现云端数据的无缝 流通 数据处理 提供ODPS IDE工具、SQL代码管理和任务调度功能,是ETL研发利器,也是分析师的基础数据处理工具 数据分析 通过拖拽和可视化的方式分析大数据,将数据...
分类:其他好文   时间:2014-11-03 16:00:41    阅读次数:458
C#与数据库访问技术总结(十一)之数据阅读器(DataReader)1
数据阅读器当执行返回结果集的命令时,需要一个方法从结果集中提取数据。处理结果集的方法有两个:第一,使用数据阅读器(DataReader):第二,同时使用数据适配器(Data Adapter)和ADO.NET数据集(DataSet)。本节将学习数据阅读器的有关知识。DataReader类在ADO.NE...
分类:数据库   时间:2014-11-03 14:20:11    阅读次数:259
mysql导入导出csv文件
问题:为什么要导入导出为csv文件呢? (1)所谓大数据处理,仅仅关心某些列的数据,而非整个表结构,这些数据就需要保存为csv通用的存储格式,不仅可以在widows下作为文本文件进行处理;也可以在hadoop分布式系统上上进行处理; (2)mysql 数据库 迁移为 Oracle 、SQLServer数据库,或者反过来,由于各自的设计不同,不能直接的导入导出为dmb sql等格式的文件...
分类:数据库   时间:2014-11-03 11:30:36    阅读次数:280
Python爬虫(一)
花了四天的时间用python写了个简单的爬虫程序。整个过程分为两个部分:工具的安装和程序的实现本文并没有讲程序的详细实现遇到的问题,而是对着手前一些前期的准备第一部分(工具的安装)开发工具的下载安装MySql + MySQLWorkbench +PyCharm (可參考)第二部分(程序实现部分)ma...
分类:编程语言   时间:2014-11-02 18:09:31    阅读次数:230
利用Python进行数据分析——数据规整化:清理、转换、合并、重塑(七)(1)
数据分析和建模方面的大量编程工作都是用在数据准备上的:载入、清理、转换以及重塑。有时候,存放在文件或数据库中的数据并不能满足你的数据处理应用的要求。很多人都选择使用通用编程语言(如Python、Perl、R或Java)或UNIX文本处理工具(如sed或awk)对数据格式进行专门处理。幸运的是,pan...
分类:编程语言   时间:2014-11-02 12:15:32    阅读次数:271
一个简单的开源PHP爬虫框架『Phpfetcher』
好久不见了!我终于又写一篇日志了,本来有很多流水帐想发但是感觉没营养,就作罢了。 今天我主要分享一个简单的PHP爬虫框架,名字叫:Phpfetcher 项目的地址是:https://github.com/fanfank/phpfetcher 这个框架的作者是:reetsee.xu,即吹水。 把整个项目下载下来后,在Linux下的终端直接执行demo文件夹下的single_page.php即可看到效果。...
分类:Web程序   时间:2014-11-02 01:58:09    阅读次数:358
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!