在Windows系统下安装好Pyton后,直接在CMD命令提示符号里输入CD.py的文件路径,进入.py文件的所在目录,例如cdc:\python33\study,进入这个目录后输入Python.py文件名回车就执行了.py文件。
分类:
编程语言 时间:
2014-11-05 00:35:02
阅读次数:
238
一、网络爬虫的定义
网络爬虫,即Web Spider,是一个很形象的名字。
把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。
网络蜘蛛是通过网页的链接地址来寻找网页的。
从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,
然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。
如...
分类:
编程语言 时间:
2014-11-05 00:27:37
阅读次数:
338
开发的一个系统中其中有一个抓取第三方网站信息的功能,但是,系统运行一段时间后,被对方服务器拒绝抓取。解决办法,只要我们伪装成浏览器。即可继续正常运行。1 private static readonly string DefaultUserAgent = "User-Agent: Mozilla/4....
分类:
其他好文 时间:
2014-11-05 00:19:18
阅读次数:
270
今天我们进行了第一次ScrumMeeting,总结了最近一段时间的工作成果和经验教训,并分配了每个成员下一步的工作。网络爬虫对我们来说是一个难点,因为之前接触比较少,所以需要从头学起。我们参考了大量的同类工程,从中学到了很多实用的知识,并且有了一个初步的简单架构。在一周之内会我们实现APP与服务器数...
分类:
其他好文 时间:
2014-11-04 14:37:02
阅读次数:
175
这里介绍两种方式:将html加载未dom树,计算文字连接比将html作为文本,计算出行块分布性能比较:1000个网页: 行块分布函数:29秒 dom数文字连接比:66秒分析:加载为dom树会很费时间。
分类:
编程语言 时间:
2014-11-04 12:55:41
阅读次数:
183
花了四天的时间用python写了个简单的爬虫程序。整个过程分为两个部分:工具的安装和程序的实现本文并没有讲程序的详细实现遇到的问题,而是对着手前一些前期的准备第一部分(工具的安装)开发工具的下载安装MySql + MySQLWorkbench +PyCharm (可參考)第二部分(程序实现部分)ma...
分类:
编程语言 时间:
2014-11-02 18:09:31
阅读次数:
230
好久不见了!我终于又写一篇日志了,本来有很多流水帐想发但是感觉没营养,就作罢了。
今天我主要分享一个简单的PHP爬虫框架,名字叫:Phpfetcher
项目的地址是:https://github.com/fanfank/phpfetcher
这个框架的作者是:reetsee.xu,即吹水。
把整个项目下载下来后,在Linux下的终端直接执行demo文件夹下的single_page.php即可看到效果。...
分类:
Web程序 时间:
2014-11-02 01:58:09
阅读次数:
358
在写爬虫的过程中,最麻烦的就是写正则表达式,还要一个一个的尝试,一次次的调试,很是费时间。于是我就写了一个网页版的,只需要输入要爬的网址,和正则式,网页上就可以显示爬到的数据。
思路:其实很简单,将网址和正则式传到服务器,服务器解析之后,将结果返回到前端。我用的是bootcss(前端)+bottle(后台用python处理),代码很简单,就是过程有些复杂。由于传递的参数是一个网址,而后台判断参数...
分类:
Web程序 时间:
2014-10-29 10:55:52
阅读次数:
239
最近在学python,之前用Python写过简单的图片爬取,今天想着用python爬一下豆瓣的电影,就有了下面的程序:
#coding:utf-8
import re
import sys
import urllib
from bs4 import BeautifulSoup
def movieSearch():
douBanSearchurl = "http://movie.douban.c...
分类:
其他好文 时间:
2014-10-29 00:26:07
阅读次数:
254
用jsoup抓取百度网盘资源链接,并用java实现多线程抓取,提高效率...
分类:
编程语言 时间:
2014-10-28 10:26:17
阅读次数:
299