写在前面 上课第25天,打卡: 保持对技术的热情,认真对待。 1 s1617day3 2 3 内容回顾: 4 Scrapy 5 - 创建project 6 - 创建爬虫 7 - 编写 8 - 类 9 - start_urls = ['http://www.xxx.com'] 10 - def par ...
分类:
其他好文 时间:
2017-11-04 13:38:51
阅读次数:
1843
1.安装 requests scrapy 豆瓣源 pip install -i 豆瓣源 包名 2.新建虚拟环境时使用 -p 参数指定 Python的版本目录 virtualenv -p pythonpath envXXX 3.网页分类 静态网页 动态网页 webservice 4.爬虫的应用 搜索引 ...
分类:
其他好文 时间:
2017-11-04 00:19:34
阅读次数:
211
有粉丝私信我想让我出更基础一些的,我就把之前平台的copy下来了,可以粗略看一下,之后都会慢慢出。 1.什么是爬虫 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。 ...
分类:
编程语言 时间:
2017-10-30 14:25:13
阅读次数:
146
写在前面 上课第24天,打卡: 努力不必让全世界知道; 1 s16/17爬虫2 2 3 内容回顾: 4 1. Http协议 5 Http协议:GET / http1.1/r/n...../r/r/r/na=1 6 TCP协议:sendall("GET / http1.1/r/n...../r/r/r ...
分类:
其他好文 时间:
2017-10-28 13:51:29
阅读次数:
198
urllib2默认只支持HTTP/HTTPS的GET和POST方法 一、Get方式 GET请求一般用于我们向服务器获取数据,比如说,我们用百度搜索,在百度搜索框中搜索“秦时明月”,拿到地址栏里有效url为:https://www.baidu.com/s?wd=秦时明月 通过抓包得到其get的目标ur ...
分类:
编程语言 时间:
2017-10-18 13:16:38
阅读次数:
174
正则表达式 1 程序员 --- 基本----都需要使用 2 数据提取====正则 3 爬虫基础 正则表达式 本身和python无关,是所有语言通用的----一种匹配字符串内容的 一种规则 1 元字符 字符集 [0123456789] [0-9]---只能从大到小 [a-zA-Z]---中间其他字符 ... ...
分类:
编程语言 时间:
2017-09-11 14:17:16
阅读次数:
194
css规则:选择器,以及一条或者多条生命。 selector{declaration1;,,,;desclarationN} 每条声明是由一个属性和一个值组成 property:value 例子: h1{color:red;fontsize:14px} 元素选择器:直接选择文档元素 id选择器 属性 ...
分类:
其他好文 时间:
2017-09-11 10:26:43
阅读次数:
198
本文转载自: 如何用 Nodejs 分析一个简单页面 韩子迟 本文目的 在浏览器地址栏中输入 localhost:3000,在页面显示 博客园首页 的 20 篇文章标题。 过程分析 首先需要端口的监听,这就需要引入 Node 中最重要的模块之一 express。其次需要对 http://www.cn ...
分类:
Web程序 时间:
2017-08-30 16:40:07
阅读次数:
298
Python标准库中提供了:urllib、urllib2、httplib等模块以供Http请求,但是,它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作,甚至包括各种方法覆盖,来完成最简单的任务。 Requests 是使用 Apache2 Licensed 许可证的 基于 ...
分类:
其他好文 时间:
2017-08-29 19:43:21
阅读次数:
224