做了一个半月终于完成了,下面这个就是我参考Olympus/RavenClaw系统编写的对话管理系统,目前实现了一个简单的航班查询,部分截图
目前能实现的功能:
1.航班查询,具体的航班信息是我自己编的,下一步可以写个爬虫把真实的数据爬下来。编的数据放到了res/raw/flightinfo.txt中。航班查询就设定了三个要素,时间,起始地和目的地,想更全面的话可以增加任...
分类:
移动开发 时间:
2014-05-11 05:49:02
阅读次数:
410
1 #!/usr/bin/python 2 #coding:utf8 3 import re 4
import urllib 5 6 def gethtml(url): 7 page=urllib.urlopen(url) 8
html=page.read() 9 ret...
分类:
编程语言 时间:
2014-05-10 18:39:47
阅读次数:
399
对这个课程有兴趣的朋友,可以加我的QQ2059055336和我联系,可以和您分享。
课程介绍:最有前途的软件开发技术——搜索引擎技术
搜索引擎作为互联网发展中至关重要的一种应用,已经成为互联网各个领域的制高点,其重要性不言而喻。搜索引擎领域也是互联网应用中不多见的以核心技术作为其命脉的领域,搜索引擎各个子系统是如何设计的?这成为广大技术人员和搜索引擎优化人员密切关注的内容。
随着互...
分类:
其他好文 时间:
2014-05-09 15:24:17
阅读次数:
322
在上一篇中,使用scrapy修改源IP发送请求的最后我们提到由于hosts文件不支持正则,会导致我们的随机域名DNS查询失败。是用DNS服务器可以解决这个问题,下面是我用gevent写的小工具,很简单。我们只拦截匹配的A记录,然后发送DNS Response,如果不匹配,那么我们服务器就是一个DNS代理,转发请求。# -*- coding=utf-8 -*-
import struct
from...
分类:
编程语言 时间:
2014-05-09 13:49:34
阅读次数:
560
这几天闲着没事,写了个python爬虫,专把堆糖上的摄影类图片扒下来...
分类:
编程语言 时间:
2014-05-09 01:05:09
阅读次数:
295
先看看列表里的__setslice__方法函数的帮助文档
help(list.__setslice__)
帮助文档如下所示:
__setslice__(...)
x.__setslice__(i, j, y) x[i:j]=y
Use of negative indices is not supported.
从帮助文档可以看出这个方法函数可...
分类:
编程语言 时间:
2014-05-09 01:01:56
阅读次数:
326
最近写爬虫的时候,利用httpclient抓取一些网页出现一些问题,就是抓取回来的内容都含有大量的加密文本(通过javascript脚本),无法获得真实的内容(也就是用浏览器打开网页呈现的内容)。所以,一般需要配合js引擎来解决这个问题,搜索了下,发现htmlunit这个工具就可以帮忙。了解和使.....
分类:
Web程序 时间:
2014-05-08 22:54:09
阅读次数:
1123
小月月是个懒家伙,博客更新好慢...前几天拿到某公司的面试题,要求在Linux/Ubuntu/Debian/Suse/Centos下用python2.7开发一个爬虫,抓取百度新闻搜索结果的前三页标题+url。这可把对python一窍不通的小月月难住了,肿么办呢...哦,最简单有效直接的方法就是网上查...
分类:
编程语言 时间:
2014-05-07 17:11:38
阅读次数:
457
1. 科普
通用搜索引擎处理的对象是互联网的网页,目前网页的数量数以亿计,所以搜索引擎面临的第一个问题是如何设计出高效的下载系统,已将海量的网页下载到本地,在本地形成互联网网页的镜像。网络爬虫就是担当此大任的。
抓取网页的过程其实和读者平时使用IE浏览器浏览网页的道理是一样的。比如说你在浏...
分类:
编程语言 时间:
2014-05-07 02:41:56
阅读次数:
368
t = '''www.jeapedu.com
www.chinagame.me
www.quanzhan.org
'''
print t.splitlines()
Python的split方法函数可以分割字符串成列表,默认是以空格作为分隔符sep来分割字符串。
In [1]: s = "www jeapedu com"
In [2]: p...
分类:
编程语言 时间:
2014-05-07 02:37:08
阅读次数:
478