码迷,mamicode.com
首页 >  
搜索关键字:爬虫 数据处理    ( 15133个结果
python 中文转码
最近在玩一些爬虫,python中文转码刚接触是一件麻烦的事(转换的原理省略)一般来说有encode(‘gbk‘),edcode(‘utf8‘),decode(‘gbk‘),decode(‘utf8‘)可以解决很大一部问题但是今天遇到了‘\\u6210\\u529f‘这种格式,上面的三板斧就搞不定了经过万能的度娘,发现了第一个贴子,叹为..
分类:编程语言   时间:2014-10-17 07:05:36    阅读次数:254
java抓取动态生成的网页--吐槽
最近在做项目的时候有一个需求:从网页面抓取数据,要求是首先抓取整个网页的html源码(后期更新要使用到)。刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架Nutch,...
分类:编程语言   时间:2014-10-17 02:11:54    阅读次数:306
【Python项目】配合爱漫画爬取漫画脚本而设计的GUI漫画阅读器 (一)
博客园的第一个坑,想想都有点小激动 =3=首先是那个爬虫的地址:【原创】最近写的一个比较hack的小爬虫选择工具:以前用过Qt,那么选pyqt4也就是情理之中了。明确需求:0、首先,要读取漫画的全部章节进来,同时能选择相应的章节。1、其次,进入相应的章节后,显示该章节的图片,同时有“下一页”、“上一...
分类:编程语言   时间:2014-10-17 01:41:13    阅读次数:370
内存对齐问题的解析
存储器的内存布局一般都是对齐的,即是按字对齐或半字对齐的方式访问的,优点是可以避免内存的浪费同时也有很高的内存操作和数据处理的速度。 如果访问非对齐的内存数据:产生不可预测的结果;忽略造成访问不对齐的低地址位;上一步后,使这些低地址位控制装载数据循环后移。先看下面这些问题,你都知道这些结构体所占.....
分类:其他好文   时间:2014-10-17 01:33:43    阅读次数:261
excel具有制作甘特图的功能
1、Excel最大功能:数据处理、统计分析。 2、数据有效性验证: ???长数字输入方法,文本前面加英文"‘"(单引号)或使用文本转换。 ???身份证号:数据、数据有效性、文本长度。 ???性别:数据、数据有效性、...
分类:其他好文   时间:2014-10-16 21:28:33    阅读次数:370
excel具有制作甘特图的功能
1、Excel最大功能:数据处理、统计分析。2、数据有效性验证:长数字输入方法,文本前面加英文"'"(单引号)或使用文本转换。身份证号:数据、数据有效性、文本长度。性别:数据、数据有效性、序列、多数据内容用英文","(逗号)隔开。3、甘特图表(制作工期图):插入、条形图、二维条形图、堆积图条形图、设...
分类:其他好文   时间:2014-10-16 20:08:23    阅读次数:176
Nikita Ivanov谈GridGain的Hadoop内存片内加速技术
GridGain最近在2014年的Spark峰会上发布了Hadoop内存片内加速技术,可以为Hadoop应用带来内存片内计算的相关收益。 该技术包括两个单元:和Hadoop HDFS兼容的内存片内文件系统,以及为内存片内处理而优化的MapReduce实现。这两个单元对基于磁盘的HDFS和传统的MapReduce进行了扩展,为大数据处理情况提供了更好的性能。...
分类:其他好文   时间:2014-10-16 17:15:42    阅读次数:235
页面输入的数据格式转换类:BaseAction(常用于Struts框架中)
在我们接收页面传来的数据时,这些数据都是以String类型接收的,所以要进行数据格式转换,这时候就可以统一为它们进行转换,而且在处理这些数据的类中可以继承ActionSupport类,然后让每一个接收数据并做业务处理的action类继承该类,并调用该类中的数据格式转换方法对接收的数据进行处理。 部分关键代码如下: /**  * 超类BaseAction 数据格式转换  * @autho...
分类:其他好文   时间:2014-10-15 22:51:11    阅读次数:147
【原创】最近写的一个比较hack的小爬虫
目标:爬取爱漫画上面自己喜欢的一个漫画分析阶段:0、打开爱漫画主页,迎面就是一坨js代码。。直接晕了1、经过抓包和对html源码的分析,可以发现爱漫画通过另外一个域名发送图片,而当前域名中通过js动态生成图片的文件名。问题就在这里了,首先,图片的文件命名模式比较多,没办法通过js源码直接爬;其次,有...
分类:其他好文   时间:2014-10-15 20:42:11    阅读次数:252
python爬虫
说起爬虫你一定想起:Scrapy,没用过这个东西,不过从Google,看起来很专业的,由于工作需要,偶尔也会从网上抓取一些数据,之前用的是beautifulsoup,我这个人其实也有点强迫症,一定要知道范围,优劣,那么问题来了?两个东西的范围是什么?以及那个更好?直接Google你可以得到答案原来是...
分类:编程语言   时间:2014-10-15 13:11:10    阅读次数:164
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!