码迷,mamicode.com
首页 >  
搜索关键字:爬虫 数据处理    ( 15133个结果
谈谈游戏服务器的发送数据处理
发送数据处理模式的概念:相信每一个第一次写游戏服务器的人都会在发送数据处理这里卡主,因为相对于简单易处理的接收消息处理,发送消息的时机和驱动更加难以把握。为什么呢?我们看下套接字可读的条件:1: 该套接字接收缓冲区中的数据字节数大于接收低水位标记2: 该连接的读关闭3: 该套接字是一个监听套接字,并...
分类:其他好文   时间:2014-07-16 17:53:52    阅读次数:224
网站内部搜索引擎简单实现
(原创,转载请注明) 不久前接手一个java web开发的活,网站是一个学术期刊的发布和共享平台。支持在线搜索网站内部期刊。以前没接触过搜索引擎,觉得搜索是一门高深的学问,后来折腾了两天写了一个简单的,不包含权重排序、爬虫和大型数据库和全文搜索(貌似中文不支持全文搜索),不涉及自然语言处理相关...
分类:Web程序   时间:2014-07-15 23:08:41    阅读次数:330
怒学Python——完结篇——I/O
好吧,没想到居然这么快,才两天我就把入门看完了,当然只是入门,以后如果用到,会把那些各个类型的细化都总结一下例如数学函数,或者总结一下一些框架的应用如Scarpy(爬虫框架,听着就很兴奋呢,很多人都是了解有,但是没用过......),笔者写完这段暂时先开心的看电影去,回学校再说。Python的屏幕I...
分类:编程语言   时间:2014-07-15 08:26:59    阅读次数:204
robots.txt用法
主要作用是告诉蜘蛛爬虫该网站下哪些内容能抓取,哪些内容不能抓取。虽然可以没有robots.txt这个文件,默认就抓取该网站的所有文件,对搜索引擎爬虫没有任何的影响,但是如果你想控制蜘蛛的检索间隔,你就必须用robots.txt来控制。robots.txt不是一种规范,是约定俗成的,主流的搜索引擎都是...
分类:其他好文   时间:2014-07-15 08:01:58    阅读次数:189
EEPlat 的 后台业务处理模型
后台处理包含数据处理、业务逻辑及业务流程等服务端操作的部分。相关的元模型包括业务对象元模型、业务对象属性元模型、服务元模型、参数元模型、业务规则元模型、工作流元模型。如下图所示:   业务对象是业务数据和逻辑的抽象。在一般的实现上它通常对应数据库中的一张表,也可以表示更大或更小的业务范围,例如一个独立的业务模块(销售模块),一张表可以拥有多个业务对象,一个业务对象也可以包含多张表。...
分类:其他好文   时间:2014-07-14 18:46:19    阅读次数:291
海量数据处理方法
1.hashing适用范围:快速查找,删除的基本数据结构,通常需要总数据量可以放入内存。这里的hashing和 hashmap是不一样的概念,这里的hash指的是hashtable,可以看例子:(比较两个字符串的包含问题)问题实例: 1).海量日志数据,提取出某日访问百度次数最多的那个IP。 ...
分类:其他好文   时间:2014-07-14 15:01:28    阅读次数:227
java如果模拟请求重启路由器(网络爬虫常用),还有java如何下载图片
我们如果在公司或家里使用网络爬虫去抓取自己索要的一些数据的时候,常常对方的网站有defence机制,会给你的http请求返回500错误,只要是相同IP就请求不到数据,这时候我们只能去重启路由器,这样IP地址会改变,网络爬虫就能正常工作了 下面是通过发送Socket请求来模拟路由器的重启指令: protected void rebotadsl() { try { BufferedO...
分类:编程语言   时间:2014-07-14 13:00:50    阅读次数:274
MySQL数据处理函数
数据处理函数 有时从数据库表中获取到的数据需要进行一些处理。如将小写字母替换为相应的大写字母。这个处理过程可以在客户机上进行,也可以在数据库上进行。数据库上进行会更高效。数据库中有相应的数据处理函数来处理这些数据,但是在SQL中使用特殊的数据处理函数会降低其可移植性。不同的DBMS系统,其数据处理函数不同。 大多数的SQL支持以下类型的函数 用于处理文本串的函数,如删除、填充...
分类:数据库   时间:2014-07-13 18:07:58    阅读次数:273
Python 爬虫 之 阅读呼叫转移(二)
上一篇博客我们成功地从网页上爬下了小说的一个章节,理所当然地,接下来我们要把整本小说都爬下来。首先,我们要把程序从原来的读完一章就结束,改成读完一章之后可以继续进行下一章的阅读。 注意到每个小说章节的网页下面都有下一页的链接。通过查看网页源代码,稍微整理一下(  不显示了),我们可以看到这一部分的 HTML 是下面这种格式的:...
分类:编程语言   时间:2014-07-12 22:45:47    阅读次数:341
Python 爬虫 之 阅读呼叫转移(三)
虽然上一篇博客中我们可以连续地阅读章节了,但是,难道每一次看小说都运行一下我们的 Python 程序?连记录看到哪里都不行,每次都是重新来过?当然不能这样,改!现在这么多小说阅读器,我们只需要把我们要的小说抓取到本地的 txt 文件里就好了,然后自己选个阅读器看,怎么整都看你了。 其实上个程序我们已经完成了大部分逻辑,我们接下来的改动只需要把抓取到每一章的时候不用显示出来,而是存入 txt 文件之中。另外一个是程序是不断地根据下一页的 Url 进行抓取的,那么什么时候结束呢?注意当到达小说的最后一章...
分类:编程语言   时间:2014-07-12 18:35:14    阅读次数:279
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!