码迷,mamicode.com
首页 >  
搜索关键字:网页数据    ( 465个结果
Python处理HTML转义字符
转载自:http://www.cnblogs.com/xuxn/archive/2011/08/12/parse-html-escape-characters-in-python.html抓网页数据经常遇到例如>或者这种HTML转义符,抓到字符串里很是烦人。比方说一个从网页中抓到的字符串htm...
分类:编程语言   时间:2015-04-03 00:05:05    阅读次数:245
python网页数据抓取全纪录
python网页数据抓取全纪录在本文中,我将会为你展示一个基于新的异步库(aiohttp)的请求的代替品。我使用它写了一些速度的确很快的小数据抓取器,下面我将会为你演示是如何做到的。codego.net中介绍的方法如此多样的原因在于,数据“抓缺实际上包括很多问题:你不需要使用相同..
分类:编程语言   时间:2015-04-02 16:44:39    阅读次数:208
Http协议与TCP协议简单理解
在C#编写代码,很多时候会遇到Http协议或者TCP协议,这里做一个简单的理解。 TCP协议对应于传输层,而HTTP协议对应于应用层,从本质上来说,二者没有可比性。Http协议是建立在TCP协议基础之上的,当浏览器需要从服务器获取网页数据的时候,会发出一次Http请求。Http会通过TCP建立起一个到服务器的连接通道,当本次请求需要的数据完毕后,Http会立即将TCP连接断开,这个过程是很短...
分类:Web程序   时间:2015-04-01 21:54:33    阅读次数:157
AsyncHttpClient 源码分析
开源的AsyncHttp是基于Apache HTTP Client包装的一个库,比较简单,回调进行获取数据,不用自己处理线程和实例化Handler 上一篇写了个 AsyncHttpClient 获取图片和网页数据演示 简单用法 AsyncHttpClient.java 是暴露的接口,最主要的就是Post和Get 2种,还有其他的HTTP请求方式 比如还有Delete,Patch操作...
分类:Web程序   时间:2015-04-01 11:24:08    阅读次数:325
【VBA研究】方法quit作用于IWebBrowser2失败怎么办
作者:iamlaosong 用VBA编程实现自动读取网页数据,在读取过程中关闭网页时遇到这样一个错误:“ 方法quit作用IWebBrowser2失败”,无法执行quit方法,但其它属性没有问题,百思未得其解,其源代码如下: Sub login3() Dim ie1 As Object lineno = [A65536].End(xlUp).Row '行数 ...
分类:编程语言   时间:2015-03-31 10:56:49    阅读次数:641
2015.3.17Ajax小练习
网页被浏览器处理时,动态供给网页动态数据。以动态数据建造的网页成为数据驱动网页,数据负责网页的内容。 JavaScript内置了动态数据的支持,这种支持就是ajax。一直以来都对ajax非常的感兴趣,今天做了一个小实验。先来描述一下ajax,ajax能让客户端的浏览器能与网络服务器产生一些“对...
分类:Web程序   时间:2015-03-17 23:13:46    阅读次数:141
AsyncHttpClient 获取图片和网页数据演示
AsyncHttpClient 极其好用,采用回调的方式并且是异步的,UI线程已经封装好。 https://github.com/loopj/android-async-http 这个例子较为简单。 先看运行结果 点击按钮 从网络上获取图片和baidu首页显示出来. 项目是直接用的源码,为了研究源码使用的。 public class HTT...
分类:Web程序   时间:2015-03-17 18:06:31    阅读次数:194
WatiN和HttpWatch交互简介
Httpwatch是一款强大的网页数据分析工具,它可以在不改变浏览器和网络设置的基础上捕捉http和https数据。查看底层的http数据,包括headers, cookies, cache等,同时统计发送接收请求时间,并提供完备的日志记录系统。同时该工具具有完备的COM接口,用于给用户通过编程的方...
分类:Web程序   时间:2015-03-16 16:10:04    阅读次数:152
解密gzip压缩的网页数据流(转)
因为采集某个网页遇到问题,一直无法获取页面数据。经过一番排查,发现该网站会检查客户端的Header信息,如果遇到不明确的Header信息就直接否定,返回0数据。如果Header信息正确,就会返回经过GZip压缩的数据,这样直接获取网页数据的想法破灭了。实际上.NET已经为我们封装好了GZip和Def...
分类:Web程序   时间:2015-03-08 18:31:30    阅读次数:131
Nutch+Hadoop集群搭建(转载)
1、Apache NutchApache Nutch是一个用于网络搜索的开源框架,它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫。1.1、Nutch的组件结构WebDB:存储网页数据和连接信息Fetch lists:将WebDB所存储的连接分成多个组,来用于分布式检索Fetc...
分类:其他好文   时间:2015-03-06 15:51:23    阅读次数:143
465条   上一页 1 ... 37 38 39 40 41 ... 47 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!