码迷,mamicode.com
首页 >  
搜索关键字:爬虫 数据处理    ( 15133个结果
HTTP请求415错误 – 不支持的媒体类型(Unsupported media type)
HTTP请求415错误 – 不支持的媒体类型(Unsupported media type)通常有以下情况:1:检查你的 http 请求头信息,比如 因为 User-Agent 被服务器设置 拒绝请求了; 比如你写的的爬虫,就很有可能因为没有伪装成浏览器,被拒绝请求 user-agent 详情2.....
分类:其他好文   时间:2014-09-22 18:06:22    阅读次数:385
用JAVA制作一个爬取商品信息的爬虫(爬取大众点评)
很多企业要求利用爬虫去爬取商品信息,但是他们大多数并没有选择nutch、crawler4j这样的爬虫框架,而是自己重新开发一套爬虫。其实nutch、crawler4j这种基于广度遍历的框架是完全可以完成商品爬取这种业务的,只需要通过简单的转换既可。...
分类:编程语言   时间:2014-09-22 15:47:02    阅读次数:4678
java抓取动态生成的网页--吐槽
最近在做项目的时候有一个需求:从网页面抓取数据,要求是首先抓取整个网页的html源码(后期更新要使用到)。刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架Nutch,使用起来是很方便,但是最后因为速度的原因放弃了,但生成的统计信息在后来的抓取中使用到.....
分类:编程语言   时间:2014-09-22 02:43:01    阅读次数:301
百度的搜索引擎相关技术的分析
1、 爬虫(Spider)——数据来源 作为搜索引擎海量数据的来源,爬虫是搜索引擎技术的重要一环,闻道软件工作室有自己开发的爬虫,所以对此技术很熟悉。 爬虫的英文是Spider,其实翻译成蜘蛛更容易理解,无数网站的链接构成了一张巨大的网,搜索引擎的内容采集程序就像一只只勤劳的蜘蛛在这张网上爬...
分类:其他好文   时间:2014-09-22 02:11:11    阅读次数:308
网络爬虫基本原理(二)
四、更新策略 互联网是实时变化的,具有很强的动态性。网页更新策略主要是决定何时更新之前已经下载过的页面。常见的更新策略又以下三种: 1.历史参考策略 顾名思义,根据页面以往的历史更新数据,预测该页面未来何时会发生变化。一般来说,是通过泊松过程进行建模进行预测。 2.用户体验策略 尽管搜索引擎针对于....
分类:其他好文   时间:2014-09-22 00:31:21    阅读次数:219
Dynatable – 基于 HTML5 & jQuery 的交互表格插件
Dynatable 一款有趣的,语义化,交互式的表格插件,使用 jQuery,HTML5 和 JSON 实现。Dynatable 的目的是提供一种简单的、可扩展的 API,能够轻松的浏览和操作大规模的数据集。Dynatable 提供包括排序,搜索和过滤等常用的数据处理功能。...
分类:Web程序   时间:2014-09-21 13:36:30    阅读次数:254
9个搜索引擎优化(SEO)最佳实践
1. 网站结构 对于搜索引擎优化,网站的结构是最重要的因素之一。网站结构是所有关于你的网页是如何联系在一起。搜索引擎爬虫的基础上它的设置方式判断你的网站的价值。文件层次结构和站点地图起到无论是否获得高排名第至关重要的作用。 如果你想受到广大用户寻找你相关的关键字可以找到,你的网站需要逻辑布局,易.....
分类:其他好文   时间:2014-09-20 21:08:09    阅读次数:309
F4107Usart数据处理程序
Crotex-M4 Usart自动发送数据的MCU数据处理...
分类:其他好文   时间:2014-09-19 22:35:06    阅读次数:293
Python爬虫抓取csdn博客
昨天晚上为了下载保存某位csdn大牛的全部博文,写了一个爬虫来自动抓取文章并保存到txt文本,当然也可以 保存到html网页中。这样就可以不用Ctrl+C 和Ctrl+V了,非常方便,抓取别的网站也是大同小异。 为了解析抓取的网页,用到了第三方模块,BeautifulSoup,这个模块对于解析html文件非常有用,当然也可以自己使用正则表达式去解析,但是比较麻烦。 由于csdn网站的robots.txt文件中显示禁止任何爬虫,所以必须把爬虫伪装成浏览器,而且不能频繁抓取,得sleep一会再抓,使用频繁会...
分类:编程语言   时间:2014-09-19 13:57:15    阅读次数:284
c语言海量数据处理
教你如何迅速秒杀掉:99%的海量数据处理面试题http://wenku.baidu.com/view/4546d06ca45177232f60a276.htmlc语言如何对海量数据进行处理 PDFhttp://www.doc88.com/p-992527311423.html
分类:编程语言   时间:2014-09-18 20:35:44    阅读次数:234
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!