搜索关键字：抓取数据，搜索到386个结果！码迷,mamicode.com！

ant编译apache-nutch-2.2.1结合mysql实现爬虫的安装配置全过程

之前的数据抓取都是用的八爪鱼软件，老大突发奇想要我自己搞个爬虫来抓取数据，网上找找貌似apache的nutch比较合适，于是就开始安装这啥nutch。对于一个linux零基础的人来说，还要先学学linux，大致了解了ssh连接工具怎么用后就开始正事了。了解到从nutch2开始，源码就必须要自己编....

分类：数据库时间：2015-01-26 19:00:26 阅读次数：1393

【scrapy】学习Scrapy入门

Scrapy介绍 Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。所谓网络爬虫，就是一个在网上到处或定向抓取数据的程序，当然，这种说法不够专业，更专业的描述就是，抓取特定网站网页的HTML数据。抓取网页的一般方法是，定义一个入口页面，然后一般一个页面会有其他页面的URL，于是从当前页面获取到这些URL加...

分类：其他好文时间：2015-01-25 18:16:58 阅读次数：212

在C#中使用正则表达式自动匹配并获取所需要的数据

转自：http://my.oschina.net/bv10000/blog/111736正则表达式能根据设置匹配各种数据（比如：e-mail地址，电话号码，身份中号码等等）。正则表达式功能强大，使用灵活，C#，Java，JavaScript等多种语言都支持正则表达式。在互联网上“抓取数据”更是少不了...

分类：Windows程序时间：2015-01-19 09:08:08 阅读次数：149

python自然语言处理1——从网络抓取数据

Python网络爬虫简明教程通过本教程可以快速了解网络爬虫过程，对一般性数据抓取有启发意义。...

分类：编程语言时间：2015-01-06 23:09:10 阅读次数：484

从网页抓取数据的一般方法

首先要了解对方网页的执行机制，这能够用httpwacth或者httplook来看一下http发送和接收的数据。这两个工具应该说是比較简单易懂的。这里就不再介绍了。主要关注的内容是header和post的内容。通常会包括cookie，Referer页面和其它一些乱其八糟可能看不懂的变量，还有就是正常交...

分类：Web程序时间：2014-12-31 22:39:56 阅读次数：222

del重复数

楼主发表于： 2010-06-21 11:46:31本帖最后由 luckycynthia 于 2010-06-21 11:47:46 编辑在抓取数据后对数据进行操作的途中，有时候会碰到重复数据，重复数据有时候会导致了数据库部分设置不能正确设置，所以就要进行筛选。首先，有两个意义上的重复记录，一是完...

分类：其他好文时间：2014-12-16 11:23:06 阅读次数：203

[转]php curl经典最常用的5个例子

转自： http://www.jb100.net/html/content-22-821-1.htmlphp curl常用的5个例子我用php ，curl主要是抓取数据，当然我们可以用其他的方法来抓取，比如fsockopen,file_get_contents等。但是只能抓那些能直接访问的页面，如...

分类：Web程序时间：2014-12-09 15:28:11 阅读次数：250

代码性能——盘点数据结构设计方案

每种数据类型都有一个与之相关的队列，这个队列是由处理器架构而非这个语言本身授权的。校准数据元素允许处理器以高效的方式从内存中抓取数据，并由此提高性能。为了提供最佳的性能，编译器试图保持这种数据元素...

分类：其他好文时间：2014-12-09 12:36:20 阅读次数：256

nodejs--实现跨域抓取数据

最近公司安排给我一个任务，抓取页面数据；http://survey.finance.sina.com.cn/static/20205/20131120.html?pid=20205&dpc=1，身为一个前端，还没搞过后台的东西，硬着头皮接下之后，就到网上各种找方法了。最终找到一个nodejs...

分类：Web程序时间：2014-12-08 17:24:57 阅读次数：545

共386条上一页 1 ... 32 33 34 35 36 ... 39 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)