码迷,mamicode.com
首页 >  
搜索关键字:抓取数据    ( 386个结果
ant编译apache-nutch-2.2.1结合mysql实现爬虫的安装配置全过程
之前的数据抓取都是用的八爪鱼软件,老大突发奇想要我自己搞个爬虫来抓取数据,网上找找貌似apache的nutch比较合适,于是就开始安装这啥nutch。 对于一个linux零基础的人来说,还要先学学linux,大致了解了ssh连接工具怎么用后就开始正事了。了解到从nutch2开始,源码就必须要自己编....
分类:数据库   时间:2015-01-26 19:00:26    阅读次数:1393
【scrapy】学习Scrapy入门
Scrapy介绍 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。抓取网页的一般方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加...
分类:其他好文   时间:2015-01-25 18:16:58    阅读次数:212
在C#中使用正则表达式自动匹配并获取所需要的数据
转自:http://my.oschina.net/bv10000/blog/111736正则表达式能根据设置匹配各种数据(比如:e-mail地址,电话号码,身份中号码等等)。正则表达式功能强大,使用灵活,C#,Java,JavaScript等多种语言都支持正则表达式。在互联网上“抓取数据”更是少不了...
分类:Windows程序   时间:2015-01-19 09:08:08    阅读次数:149
python自然语言处理1——从网络抓取数据
Python网络爬虫简明教程 通过本教程可以快速了解网络爬虫过程,对一般性数据抓取有启发意义。...
分类:编程语言   时间:2015-01-06 23:09:10    阅读次数:484
从网页抓取数据的一般方法
首先要了解对方网页的执行机制,这能够用httpwacth或者httplook来看一下http发送和接收的数据。这两个工具应该说是比較简单易懂的。这里就不再介绍了。主要关注的内容是header和post的内容。通常会包括cookie,Referer页面和其它一些乱其八糟可能看不懂的变量,还有就是正常交...
分类:Web程序   时间:2014-12-31 22:39:56    阅读次数:222
del重复数
楼主 发表于: 2010-06-21 11:46:31本帖最后由 luckycynthia 于 2010-06-21 11:47:46 编辑在抓取数据后对数据进行操作的途中,有时候会碰到重复数据,重复数据有时候会导致了数据库部分设置不能正确设置,所以就要进行筛选。首先,有两个意义上的重复记录,一是完...
分类:其他好文   时间:2014-12-16 11:23:06    阅读次数:203
[转]php curl经典最常用的5个例子
转自: http://www.jb100.net/html/content-22-821-1.htmlphp curl常用的5个例子 我用php ,curl主要是抓取数据,当然我们可以用其他的方法来抓取,比如fsockopen,file_get_contents等。但是只能抓那些能直接访问的页面,如...
分类:Web程序   时间:2014-12-09 15:28:11    阅读次数:250
代码性能——盘点数据结构设计方案
每种数据类型都有一个与之相关的队列,这个队列是由处理器架构而非这个语言本身授权的。校准数据元素允许处理器以高效的方式从内存中抓取数据,并由 此提高性能。为了提供最佳的性能,编译器试图保持这种数据元素...
分类:其他好文   时间:2014-12-09 12:36:20    阅读次数:256
nodejs--实现跨域抓取数据
最近公司安排给我一个任务,抓取页面数据;http://survey.finance.sina.com.cn/static/20205/20131120.html?pid=20205&dpc=1,身为一个前端,还没搞过后台的东西,硬着头皮接下之后,就到网上各种找方法了。最终找到一个nodejs...
分类:Web程序   时间:2014-12-08 17:24:57    阅读次数:545
386条   上一页 1 ... 32 33 34 35 36 ... 39 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!