PHP/CURL库功能多种传输协议。CURL(client URL Request Library),含义是“客户端URL请求库”。不像上一篇所用的PHP内置网络函数,PHP/CURL支持多种传输协议,包括FTP、FTPS、HTTP、HTTPS、Gopher、Telnet和LDAP。其中HTTPS,...
分类:
Web程序 时间:
2015-06-25 20:48:23
阅读次数:
124
<?php//用fopen()和fgets()从网上下载一个网页//定义你要下载的文件$target = "http://www.baidu.com";$file_handle=fopen($target,"r");//下载该文件while(!feof($file_handle)) echo ...
分类:
其他好文 时间:
2015-06-25 19:17:59
阅读次数:
96
很多业务需要下载整站页面(有时为多个站点),将页面按照网站拓扑结构存放。
下面给出用JAVA爬虫WebCollector(2.09版本以上)爬取整站网页并按照网页拓扑结构存储到本地的代码。
代码中的抽取器可以作为一个插件复用。
WebCollector的jar包可到官网下载:WebCollector官网。进入官网后下载webcollector-版本号-bin.zip,解压得到所需jar包。...
分类:
编程语言 时间:
2015-06-25 10:30:17
阅读次数:
179
importMySQLdb
importurllib
importwebbrowserasweb
importjson
conn=MySQLdb.connect(host="localhost",user="root",passwd="sf123456",port=3306,charset="utf8")
cur=conn.cursor()
#cur.execute(‘createdatabaseifnotexistsstock_db‘)
conn.select_db("db_stock")
fori..
分类:
其他好文 时间:
2015-06-24 16:46:30
阅读次数:
106
importMySQLdb
importurllib
importwebbrowserasweb
importjson
conn=MySQLdb.connect(host="localhost",user="root",passwd="sf123456",port=3306,charset="utf8")
cur=conn.cursor()
#cur.execute(‘createdatabaseifnotexistsstock_db‘)
conn.select_db("db_stock")
fori..
分类:
其他好文 时间:
2015-06-18 02:00:00
阅读次数:
117
定义网络爬虫 网络爬虫(Web Spider,也被称为网络蜘蛛,网络机器人,也被称为网页追逐者)。按照一定的规则,维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自己主动索引,模拟程序或者蠕虫。假设把互联网比喻成一个蜘蛛网。那么Spider就是在网上爬来爬去的蜘蛛。 网络蜘蛛是通...
分类:
编程语言 时间:
2015-06-16 16:07:24
阅读次数:
189
早上还有实验验收,先上代码,早上再写。import urllib2import refrom bs4 import BeautifulSoupcontent = urllib2.urlopen("http://www.cnblogs.com/ly941122/").read();soup=Beaut...
分类:
Web程序 时间:
2015-06-13 01:06:05
阅读次数:
215
最近学了下网络爬虫,打算从一个网站上提取点东西,自己练练手,刚开始还从这个网站上取了正确的html,后来百般尝试还是不能取正确的html,希望能得到大家的帮助~我刚开始的代码是:1 url="http://www.karger.com/Collections/Hospital";2 ...
分类:
编程语言 时间:
2015-06-12 18:54:12
阅读次数:
222
原帖地址http://www.oschina.net/project/lang/19?tag=64&sort=time极简网络爬虫组件WebFetchWebFetch 是无依赖极简网页爬取组件,能在移动设备上运行的微型爬虫。 WebFetch 要达到的目标: 没有第三方依赖jar包 减少内存使用 提...
分类:
编程语言 时间:
2015-06-09 11:25:25
阅读次数:
762
最近。对于图形微信公众号。互联网收集和阅读一些疯狂的-depth新闻和有趣,发人深思文本注释,并选择最佳的发表论文数篇了。但看着它的感觉是一个麻烦的一人死亡。寻找一个简单的解决方案的方法,看看你是否可以把互联网上的信息自己主动收集,然后,他们使用一个统一的筛选。可惜,最近准备学习的知识网络爬虫,于是...
分类:
编程语言 时间:
2015-06-08 19:12:34
阅读次数:
278