参照着网上的爬虫案例(点我),先做了一个demo,基本的爬虫项目创建,以及数据抽取,数据分析,数据保存等等过程基本上有所掌握。 
我的需求是需要检索指定的百度贴吧,根据指定的关键字库,搜索出含有关键字的链接,并抽取出来,用于后续告警。 因此,基于需求,分如下步骤: 
第一:基于Scrapy创建爬虫项目;...
                            
                            
                                分类:
编程语言   时间:
2014-04-28 17:37:30   
                                阅读次数:
707
                             
                    
                        
                            
                            
                                Python的文件类型分为三种:源代码、字节代码、优化代码。1.源代码Python源代码文件,即py脚本文件,由python.exe解释,可在控制台下运行。pyw脚本文件是图形用户接口(Graphicaluserinterface)的源文件,专门用来开发图形界面,由pythonw.exe解释运行。2...
                            
                            
                                分类:
编程语言   时间:
2014-04-28 07:38:31   
                                阅读次数:
619
                             
                    
                        
                            
                            
                                1.变量的命名变量名由字母、数字或下划线组成,首字母必须是字母或下划线。2.变量的赋值Python中的变量不需要声明,变量的赋值操作既是变量声明和定义的过程。每个变量在内存中创建,都包括变量的标识,名称和数据这些信息。每个变量在使用前都必须赋值,赋值后该变量才会被创建。3.局部变量局部变量是只能在函...
                            
                            
                                分类:
编程语言   时间:
2014-04-28 07:09:02   
                                阅读次数:
604
                             
                    
                        
                            
                            
                                wxwidget官方建议的工具集合:http://wiki.wxwidgets.org/Tools支持wxpython可视化开发工具wxFormBuilderwxGladewxDesignerVisualWX
                            
                            
                                分类:
编程语言   时间:
2014-04-28 06:37:32   
                                阅读次数:
846
                             
                    
                        
                            
                            
                                1.元组(tuple)元组由不同的元素组成,每个元素可以储存不同类型的数据,如字符串、数字甚至元组。元组是写保护的,即元组创建后不能再做任何修改操作。1.1元组的创建Tuple(元组)由一系列元素组成,所有元素被包含在一对圆括号中。创建元组时可以不指定元素个数,但一旦创建后就不能修改长度元组的创建格...
                            
                            
                                分类:
编程语言   时间:
2014-04-28 06:33:27   
                                阅读次数:
711
                             
                    
                        
                            
                            
                                近日,研究Tencent网页模拟登录的过程,过程有些忐忑。先将结果写于此,供大家参考:其加密过程在c_login_old.js文件中执行,将JS关键代码提取出来如下:function 
hexchar2bin(str) { var arr = []; for (var ...
                            
                            
                                分类:
编程语言   时间:
2014-04-28 06:23:24   
                                阅读次数:
1141
                             
                    
                        
                            
                            
                                1下载驱动库http://sourceforge.net/projects/mysql-python/2,yum install mysql-dev*yum 
install python-dev*3,python setup.py install
                            
                            
                                分类:
数据库   时间:
2014-04-28 05:40:20   
                                阅读次数:
634
                             
                    
                        
                            
                            
                                今天看了两集Stanford 的Machine 
Learning,先说说感受,在看的过程中,脑海里冒出来一个念头:在中国的大学里,教授们都是好像在做研究,而学生们都是好像在上课,到头来不知道学到了什么,我在屏幕的这边都能感受到他们和我们的不一样。 
其实对于机器学习,我是真心不懂,也不知道为什么忽然就...
                            
                            
                                分类:
其他好文   时间:
2014-04-28 05:32:20   
                                阅读次数:
443
                             
                    
                        
                            
                            
                                3.1 Installing mod_pythonTo install mod_python, 
we simply run:yum install mod_python3.2 Configuring ApacheNow we must configure 
Apache so that it can ...
                            
                            
                                分类:
编程语言   时间:
2014-04-28 04:52:46   
                                阅读次数:
735
                             
                    
                        
                            
                            
                                在OSI体系中,该层位于第二层,从下到上依次:物理层,数据链路层,网络层,运输层,会话层,表示层,应用层。在TCP/IP体系中,该层位于第一层,从下到上依次:网络接口层,网际层,运输层,应用层。在这层中,涉及到最重要的知识点1 
帧的格式2 差错检验3 碰撞检测4 帧的长度问题MAC帧的格式6字节:目...
                            
                            
                                分类:
其他好文   时间:
2014-04-28 00:21:12   
                                阅读次数:
614