码迷,mamicode.com
首页 >  
搜索关键字:爬虫 数据处理    ( 15133个结果
性能优化你必须知道的那些事儿
最近有客户反馈系统导入EXECL进行数据处理超时了,我当时的第一反应,不可能啊我明明是做过性能优化的啊,怎么还会超时呢,这是要有多少条数据才可能发生啊!于是找客户要来了EXECL,发现有7500多条数据,备份完客户数据库进行代码调试找出性能差的地方。都是一些平时老生常谈的东西,可是又是很容易忽略的地...
分类:其他好文   时间:2014-08-23 13:58:00    阅读次数:336
MVC模式简介
模型-视图-控件(model-View-Controller)MVC结构是一种开发模块的方法,它将数据存储和数据处理从数据的可视化表示中分离出来。存储和处理数据的组件称为模型,它包含模块的实际内容。表示数据的组件称为视图,它处理模块所有必要的行为,完成模块的所有显示。控件通常是一种用来获取数据的组件。 把模块分解成模型与视图有两个明显优点: 1.可以使用多个视图共享同一个模型数据。 ...
分类:Web程序   时间:2014-08-23 12:43:40    阅读次数:276
博客地图
七日python之路 七日python -- 第一天 七日python -- 第二天 ... scrapy爬虫 python爬虫----(1. 基本模块) ... pytnon基础 python基本 -- threading多线程模块的使用 python基本 -- mysql 的使用...
分类:其他好文   时间:2014-08-23 04:38:50    阅读次数:171
乌云爬虫分项、参数化、优化
import mysql.connectorimport sys, osimport urllib.requestimport reimport itertoolsimport base64search_item='金融'#搜索项改这个就可以了#以后只需要修改search_item就可以了#转成by...
分类:其他好文   时间:2014-08-22 16:02:29    阅读次数:197
python开发的 dht网络爬虫
使用 libtorrent 的python绑定库实现一个dht网络爬虫,抓取dht网络中的磁力链接。 dht 网络简介 p2p网络 在P2P网络中,通过种子文件下载资源时,要知道资源在P2P网络中哪些计算机中,这些传输资源的计算机称作pee...
分类:编程语言   时间:2014-08-22 14:40:39    阅读次数:222
原子类通过(CAS和volatile)实现单共享变量的线程安全
对于CAS是一种有别于synchronized的一种乐观锁实现.是一种非阻塞锁算法.CAS通过与原始预期值进行比较来确定是否修改主内存中数据的一种方案.基于一个线程的失败或者挂起不应该影响其他线程的失败或挂起这样的前提,而提出硬件层次的实现数据处理的互斥。可以自动更新共享数据,而且能够检测到其他线程的干扰,而 compareAndSet() 就用这些代替了锁定。对于实现CAS的原子类(Atom...
分类:编程语言   时间:2014-08-22 10:56:46    阅读次数:261
如何把Volley改成一个爬虫--HttpClient设置
闲的时候一直在自己研究爬虫相关的东西,看过一两个开源框架,自己照猫画虎的写了一个,目前看来我的爬虫可以用了,但还是有很多不足,把我目前的经验写出来跟大家分享一下。 国外爬虫的局限 1.太守规矩(如果有Robot文件就要按着爬) 2.无法自由切换代理,如果切换代理对所有线程都有影响,...
分类:其他好文   时间:2014-08-22 10:35:25    阅读次数:321
python爬虫----(6. scrapy框架,抓取亚马逊数据)
利用xpath()分析抓取数据还是比较简单的,只是网址的跳转和递归等比较麻烦。耽误了好久,还是豆瓣好呀,URL那么的规范。唉,亚马逊URL乱七八糟的.... 可能对url理解还不够. amazon ├──?amazon │??...
分类:编程语言   时间:2014-08-22 05:03:45    阅读次数:3369
Storm【实践系列-如何写一个爬虫- 对于Protocol进行的封装】
本章描述:对于Protocol的封装 package?com.digitalpebble.storm.crawler.fetcher; import?com.digitalpebble.storm.crawler.util.Configuration; public?interface?Protocol?{ ????public?Protoco...
分类:其他好文   时间:2014-08-21 19:45:55    阅读次数:147
Storm【实践系列-如何写一个爬虫- Metric 系列】1
package?com.digitalpebble.storm.crawler; import?backtype.storm.Config; import?backtype.storm.metric.MetricsConsumerBolt; import?backtype.storm.metric.api.IMetricsConsumer; import?backtype.st...
分类:其他好文   时间:2014-08-21 17:25:44    阅读次数:185
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!