码迷,mamicode.com
首页 >  
搜索关键字:爬虫 数据处理    ( 15133个结果
讯飞移动广告平台正式上线啦~~
10月22日,讯飞移动广告平台(http://www.xfyun.cn)正式上线了,讯飞移动广告平台依托讯飞语音云强大的语音语义交互、云计算、大数据处理、服务器负载集群等能力,凭借40000多合作伙伴和超过5亿终端用户的资源积累,以及日均1亿+的广告请求,为移动开发者提供稳健变现的广告服务。 讯飞移动广告平台聚焦移动广告聚合优化,与多家优质移动广告平台、DSP平台以及广告交易平台合作,通过先...
分类:移动开发   时间:2014-10-22 18:17:38    阅读次数:556
网页爬虫WebCrawler(2)-Utilities
在网页爬虫的实现过程中还涉及了一些基本的功能函数,例如获取系统的当前时间函数,进程休眠和字符串替换函数等。 我们将这些多次调用的与过程无关的函数写成一个类Utilities。 Code: /////Utilities.h //************************* //与操作系统相关的函数 //************************* #ifndef Uti...
分类:Web程序   时间:2014-10-22 16:01:00    阅读次数:248
Jsoup 爬取页面的数据和 理解HTTP消息头
推荐一本书:黑客攻防技术宝典.Web实战篇 ; 顺便留下一个疑问:是否能通过jsoup大量并发访问web或者小型域名服务器,使其瘫痪?其实用jsoup熟悉的朋友可以用它解析url来干一件很无耻的事(源码保密)。呵呵,接下来简单的介绍下JSOUP。 jsoup 是一款基于Java 的HTML解析器,可直接解析某个URL地址、HTML文本字符串、HTML文件。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。 官网下载地址:h...
分类:Web程序   时间:2014-10-22 11:06:52    阅读次数:277
实现html转Xml
最近在做一些网页信息采集的工作,说通俗点就是爬虫工具,要监控页面中某一部分内容是否发生变化。起初考虑用正则表达式去匹配网页源码,经过咨询有经验人士,推荐使用xpath去获取页面内容能获得更好的效率。但是对于html这种宽松语法要求的语言来说,不可能100%地完全符合xml标准,那么就没法使用xpat...
分类:Web程序   时间:2014-10-22 10:46:33    阅读次数:175
blog_导航
blog导航 在左下侧:随笔分类 简要做个导航图放到这儿方便大家查阅 直奔爬虫: 点击-> 直奔oracle:点击->
分类:其他好文   时间:2014-10-21 19:10:26    阅读次数:143
网页爬虫WebCrawler(1)-Http网页内容抓取
在windows下的C++通过Http协议实现对网页的内容抓取:     首先介绍下两个重要的包(一般是在linux下的开源数据包,在windows下则调用其动态链接库dll):curl包和pthreads_dll,其中curl包解释为命令行浏览器,通过调用内置的curl_easy_setopt等函数即可实现特定的网页内容获取(正确的编译导入的curl链接库,还需要另外一个包C-ares)。pt...
分类:Web程序   时间:2014-10-21 15:34:13    阅读次数:273
8.1-8.31推荐文章汇总
8.1-8.31推荐文章汇总 【移动开发】 Cocos2d-x Lua 读取Csv文件,更方便的使用数据        笨木头 Android应用如何支持屏幕多尺寸多分辨率问题        xyz_lmn CSDN Android客户端开发(二):详解如何基于Java用Jsoup爬虫HTML数据        yanzi1225627 Android开发之WebVi...
分类:其他好文   时间:2014-10-21 12:22:20    阅读次数:365
IT忍者神龟之Java网络爬虫回顾
网络爬虫的强大和伟大耸立在我们IT技术里面...
分类:编程语言   时间:2014-10-21 10:23:03    阅读次数:279
socket选项
当调用closesocket关闭套接字时,SO_LINGER将决定系统如何处理残存在套接字发送队列中的数据。处理方式无非两种:丢弃或者将数据继续发送至对端,优雅关闭连接TCP_NODELAY: 表示立即发送数据.SO_RESUSEADDR: 表示是否允许重用Socket 所绑定的本地地址.SO_TI...
分类:其他好文   时间:2014-10-21 00:37:50    阅读次数:286
企业邮箱服务优化软件
我们已经进入了大数据处理时代,须要高速、简单的处理海量数据,企业邮箱服务也面临着大数据处理,海量数据处理的三个主要因素:大容量数据、多格式数据和速度。DMCTextFilter和HTMLFilter是由北京红樱枫软件有限公司研制和开发的纯文本抽出和HTML转换通用程序库产品。本产品能够从各种各...
分类:其他好文   时间:2014-10-19 22:35:01    阅读次数:286
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!