1.什么是爬虫 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。 比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张 ...
分类:
编程语言 时间:
2017-04-17 14:06:22
阅读次数:
215
#! usr/bin/env python# -*- coding: utf-8 -*-''' post'''import urllibimport urllib2url = ''values = {'user' : 'v1', 'password' : 'v2'}data = urllib.url ...
分类:
编程语言 时间:
2017-04-15 13:45:13
阅读次数:
177
在前几天看到一片公众号的文章是关于.NET玩爬虫。 所以今天小编索性来try一下,恰好小编最近在关注房价这一块的,索性就写了一个例子抓取房产信息的。 不善言辞的小编直接给出代码吧!相信读者也等不及了。你要是觉得有用就推荐一下或者评论一下吧! 其中getHtml()是在网上找的一个处理乱码的,具体是谁 ...
1. 目标:开发轻量级爬虫(不包括需登陆的 和 Javascript异步加载的) 不需要登陆的静态网页抓取 2. 内容: 2.1 爬虫简介 2.2 简单爬虫架构 2.3 URL管理器 2.4 网页下载器(urllib2) 2.5 网页解析器(BeautifulSoup) 2.6 完整实例:爬取百度百 ...
分类:
编程语言 时间:
2017-02-14 13:25:23
阅读次数:
313
一、什么是爬虫,爬虫能做什么 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据。 爬 ...
分类:
编程语言 时间:
2016-12-04 21:11:47
阅读次数:
739
用java做了一个小爬虫的dome,感觉挺好玩的样子。得好好学学爬虫这门技术 1 java 原生的代码实现爬虫 这是将淘宝首页 a 标签的文字爬下来了 2 java 相关的框架封装的方法,首先得先引入架包jsoup-1.7.3.jar 网页通过get 方法来提交数据的爬取方式 爬出来是淘宝想应的链接 ...
分类:
其他好文 时间:
2016-10-23 02:16:02
阅读次数:
305
今天在麦子学院看了教学视频之后,发现收益颇丰,因而做了一下学习笔记(毕竟是第一次写,感觉有点low)。 以下是我照着老师敲的代码: # coding:utf-8import urllib def print_list(list): # 获取的网页源码按行输出 for i in list: print ...
分类:
编程语言 时间:
2016-09-24 00:46:09
阅读次数:
191
参考文章:https://swlaschin.gitbooks.io/fsharpforfunandprofit/content/posts/fvsc-download.html 参考的文章教了我们如果在F#里利用.Net的库来下载一个网页,这里,我来发散一下,把它弄成一个可以用来帮助写爬虫的基础库 ...
分类:
Web程序 时间:
2016-09-05 12:16:59
阅读次数:
160
第一:Python爬虫学习系列教程(来源于某博主:http://cuiqingcai.com/1052.html) Python版本:2.7 整体目录: 一、爬虫入门 1. Python爬虫入门一之综述 2. Python爬虫入门二之爬虫基础了解 3. Python爬虫入门三之Urllib库的基本使 ...
分类:
编程语言 时间:
2016-08-21 18:29:51
阅读次数:
276
一、入门 1.Python 面向对象编程 2.jquery入门 3.HTML+CSS基础入门 4.Javascript初步 5.Python语言编程基础 二、初级阶段 1.Git 与 GitHub 2.Python 爬虫基础 3.django进阶 4.django项目部署 5.ajax入门 6.dj ...
分类:
编程语言 时间:
2016-07-07 06:16:50
阅读次数:
195