搜索关键字：网络爬虫，搜索到1546个结果！码迷,mamicode.com！

网络爬虫2--PHP/CURL库（client URL Request Library）

PHP/CURL库功能多种传输协议。CURL（client URL Request Library），含义是“客户端URL请求库”。不像上一篇所用的PHP内置网络函数，PHP/CURL支持多种传输协议，包括FTP、FTPS、HTTP、HTTPS、Gopher、Telnet和LDAP。其中HTTPS，...

分类：Web程序时间：2015-06-25 20:48:23 阅读次数：124

网络爬虫1-创建第一个简单的脚本

<?php//用fopen（）和fgets()从网上下载一个网页//定义你要下载的文件$target = "http://www.baidu.com";$file_handle=fopen($target,"r");//下载该文件while(!feof($file_handle)) echo ...

分类：其他好文时间：2015-06-25 19:17:59 阅读次数：96

WebCollector下载整站页面(JAVA网络爬虫)

很多业务需要下载整站页面（有时为多个站点），将页面按照网站拓扑结构存放。下面给出用JAVA爬虫WebCollector(2.09版本以上)爬取整站网页并按照网页拓扑结构存储到本地的代码。代码中的抽取器可以作为一个插件复用。 WebCollector的jar包可到官网下载：WebCollector官网。进入官网后下载webcollector-版本号-bin.zip，解压得到所需jar包。...

分类：编程语言时间：2015-06-25 10:30:17 阅读次数：179

网络爬虫2

importMySQLdb importurllib importwebbrowserasweb importjson conn=MySQLdb.connect(host="localhost",user="root",passwd="sf123456",port=3306,charset="utf8") cur=conn.cursor() #cur.execute(‘createdatabaseifnotexistsstock_db‘) conn.select_db("db_stock") fori..

分类：其他好文时间：2015-06-24 16:46:30 阅读次数：106

网络爬虫1

importMySQLdb importurllib importwebbrowserasweb importjson conn=MySQLdb.connect(host="localhost",user="root",passwd="sf123456",port=3306,charset="utf8") cur=conn.cursor() #cur.execute(‘createdatabaseifnotexistsstock_db‘) conn.select_db("db_stock") fori..

分类：其他好文时间：2015-06-18 02:00:00 阅读次数：117

Python爬行动物（一）：基本概念

定义网络爬虫网络爬虫（Web Spider，也被称为网络蜘蛛，网络机器人，也被称为网页追逐者）。按照一定的规则，维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁，自己主动索引，模拟程序或者蠕虫。假设把互联网比喻成一个蜘蛛网。那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通...

分类：编程语言时间：2015-06-16 16:07:24 阅读次数：189

第一个网络爬虫——简单的抓取网页

早上还有实验验收，先上代码，早上再写。import urllib2import refrom bs4 import BeautifulSoupcontent = urllib2.urlopen("http://www.cnblogs.com/ly941122/").read();soup=Beaut...

分类：Web程序时间：2015-06-13 01:06:05 阅读次数：215

python3.4 伪装成浏览器获取页面信息失败

最近学了下网络爬虫，打算从一个网站上提取点东西，自己练练手，刚开始还从这个网站上取了正确的html，后来百般尝试还是不能取正确的html，希望能得到大家的帮助~我刚开始的代码是：1 url="http://www.karger.com/Collections/Hospital";2 ...

分类：编程语言时间：2015-06-12 18:54:12 阅读次数：222

【转】44款Java 网络爬虫开源软件

原帖地址http://www.oschina.net/project/lang/19?tag=64&sort=time极简网络爬虫组件WebFetchWebFetch 是无依赖极简网页爬取组件，能在移动设备上运行的微型爬虫。 WebFetch 要达到的目标：没有第三方依赖jar包减少内存使用提...

分类：编程语言时间：2015-06-09 11:25:25 阅读次数：762

python网络爬虫进入（一）——简单的博客爬行动物

最近。对于图形微信公众号。互联网收集和阅读一些疯狂的-depth新闻和有趣，发人深思文本注释，并选择最佳的发表论文数篇了。但看着它的感觉是一个麻烦的一人死亡。寻找一个简单的解决方案的方法，看看你是否可以把互联网上的信息自己主动收集，然后，他们使用一个统一的筛选。可惜，最近准备学习的知识网络爬虫，于是...

分类：编程语言时间：2015-06-08 19:12:34 阅读次数：278