小月月是个懒家伙,博客更新好慢...前几天拿到某公司的面试题,要求在Linux/Ubuntu/Debian/Suse/Centos下用python2.7开发一个爬虫,抓取百度新闻搜索结果的前三页标题+url。这可把对python一窍不通的小月月难住了,肿么办呢...哦,最简单有效直接的方法就是网上查...
分类:
编程语言 时间:
2014-05-07 17:11:38
阅读次数:
457
1. 科普
通用搜索引擎处理的对象是互联网的网页,目前网页的数量数以亿计,所以搜索引擎面临的第一个问题是如何设计出高效的下载系统,已将海量的网页下载到本地,在本地形成互联网网页的镜像。网络爬虫就是担当此大任的。
抓取网页的过程其实和读者平时使用IE浏览器浏览网页的道理是一样的。比如说你在浏...
分类:
编程语言 时间:
2014-05-07 02:41:56
阅读次数:
368
目前在做一个winform小软件,其中有一个功能是能根据关键字检索本地保存的word文档。第一次是用com读取word方式(见上一篇文章),先遍历文件夹下的word文档,读取每个文档时循环关键字查找,结果可想而知效率很慢。检索结果是一条接一条显示出来的o(>_
2 /// 创建索引...
分类:
Web程序 时间:
2014-05-07 02:20:56
阅读次数:
428
1、异常 例如: def fetcher(obj,index): return obj[index]
def catcher(): ...
分类:
编程语言 时间:
2014-05-07 01:51:04
阅读次数:
460
(1)pyhton
shell下导入MySQLdb失败。http://pypi.python.org/pypi/MySQL-python/(2)下载解压MySQL-python。http://pypi.python.org/packages/source/M/MySQL-python/MySQL-p...
分类:
数据库 时间:
2014-05-07 01:38:05
阅读次数:
502
C#部分:1.C#中集合有三种,数组类,ArrayList,和字典键值对类,一般也可以自定义集合,但是自定义集合的类型也只有这三类。2.自定义集合实现三类集合的方法:前两者需要继承CollectionBase类,Array需要使用List属性,ArrayList需要使用InnerList属性,后一种...
分类:
编程语言 时间:
2014-05-07 01:27:42
阅读次数:
396
Ubuntu安装Matplotlibubuntu下安装matplotlib的复杂度远远比windows下复杂的多,相对双击就能解决问题的,现在你需要时不时的解决编译带来的各种问题。1sudo
apt-get install python-dev先安装numpy:12python setup.py b...
分类:
编程语言 时间:
2014-05-07 01:04:09
阅读次数:
606
本篇内容主要包括:1.能够转化为并行循环的条件2.并行For循环的用法:Parallel.For3.并行ForEach的用法Parallel.ForEach4.并行LINQ(PLINQ)的用法AsParallel()5.并行中断与并行停止的用法与区别6.外部控制循环取消的方法(Break,Stop)...
分类:
Web程序 时间:
2014-05-07 00:33:18
阅读次数:
441
一 串行模式和并行模式 一般一个服务应用程序采用以下两个架构模型之一:串行模式
一个线程等待一个客户发出的请求,当请求到达的时候,线程会被换醒来处理客户的请求。并发模式。一个线程等待一个客户发出的请求,当请求到达的时候,线程会创建一个新的线程来处理客户的请求,而当前线程则会进入下一次循环继续等待.....
分类:
其他好文 时间:
2014-05-07 00:22:59
阅读次数:
309
动态语言Dynamically Typed
Language例如:ECMAScript(JavaScript)、Ruby、Python、VBScript、php也叫动态类型定义语言与静态类型定义相反,一种在执行期间才去发现数据类型的语言,动态语言是指程序在运行时可以改变其结构:新的函数可以被引进,已...
分类:
其他好文 时间:
2014-05-07 00:20:58
阅读次数:
356