一个Http请求 DNS域名解析 --> 发起TCP的三次握手 --> 建立TCP连接后发起http请求 --> 服务器响应http请求,浏览器得到html代码 --> 浏览器解析html代码,并请求html代码中的资源(如js、css、图片等) --> 浏览器对页面进行渲染呈现给用户 设计存储海量 ...
分类:
Web程序 时间:
2017-04-25 16:46:05
阅读次数:
171
第一次接触jsoup还是在处理收货地址的时候,当时在写一个下单流程,需要省市区id以及详细门牌号等等,因此同事介绍了jsoup,闲来无事,在此闲扯一番! 1.我们来看下,什么是jsoup,先来看看官方文档是怎么说的: jsoup: Java HTML Parser,jsoup is a Java l ...
分类:
Web程序 时间:
2017-04-24 23:01:07
阅读次数:
537
网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。 爬虫主要应对的问题:1.http请求 2.解析html源码 3.应对反爬机制。 觉得爬虫挺有意思的,恰好看到知乎有人分享的一个爬虫小教程:https://zhuanlan.zhihu.com/p/20410446 立马学起! 主要 ...
分类:
编程语言 时间:
2017-04-16 21:42:47
阅读次数:
311
【转】开源项目Html Agility Pack实现快速解析Html 这是个很好的的东西,以前做Html解析都是在用htmlparser,用的虽然顺手,但解析速度较慢,碰巧今天找到了这个,就拿过来试,一切出乎意料,非常爽,推荐给各位使用。 下面是一些简单的使用技巧,希望对大家有用,我个人也是个学习过 ...
分类:
Web程序 时间:
2017-04-13 10:09:33
阅读次数:
215
什么是this this是js中的一个关键词,它总是指向一个对象,而具体指向哪个对象是在运行时基于函数的执行环境动态绑定的,而非函数被声明时的环境。 当函数被调用时,this被添加到作用域中,例如: add的作用域链如下图所示,我们可以看到作用域链中的两个this(一个全局作用域中的this和add ...
分类:
Web程序 时间:
2017-04-13 00:52:31
阅读次数:
344
1、首先说说浏览器的加载流程: (1) 用户在地址栏中打开一个URL,浏览器首先会寻找该URL所在服务器,通过DNS服务器查询浏览器会获 得该URL所在网站的IP地址,然后向该地址发起请求,连接到服务器; (2) 建立连接后,向服务器发送http请求,请求对应的HTML文档; (3) 解析HTML文 ...
分类:
其他好文 时间:
2017-04-12 11:14:35
阅读次数:
165
http://www.cnblogs.com/lhb25/p/how-browsers-work.html#Main_flow_examples http://blog.csdn.net/u014168594/article/details/52196460 ...
分类:
Web程序 时间:
2017-04-12 01:53:03
阅读次数:
137
分类: Python/Ruby 最近刚开始使用python来做爬虫爬取相关数据,使用了python自带的urllib和第三方库requests,解析html使用了beautifulsoup以及lxml 这里说下lxml,lxml是python的一个html、xml解析库,lxml使用XPath能快速 ...
分类:
编程语言 时间:
2017-04-07 20:02:15
阅读次数:
387
本课知识路线 Requests框架:自动爬取HTML页面与自动网络请求提交 robots.txt:网络爬虫排除标准 BeautifulSoup框架:解析HTML页面 Re框架:正则框架,提取页面关键信息 Scrapy框架:网络爬虫原理介绍,专业爬虫框架介绍 Requests库的七个主要方法 requ ...
分类:
其他好文 时间:
2017-04-06 14:47:32
阅读次数:
147
今天在学习python,于是自己动手写了一个简单的爬虫的例子,解析Html使用bs4,爬取的网页是没有反爬机制的,也没有代理 ...
分类:
编程语言 时间:
2017-04-05 17:40:00
阅读次数:
190