码迷,mamicode.com
首页 >  
搜索关键字:抓取    ( 5747个结果
Python抓取页面乱码问题的解决
import urllib2response=urllib2.urlopen('http://house.focus.cn/')html=response.read()print html.decode('gbk')
分类:编程语言   时间:2014-06-27 00:50:29    阅读次数:333
Fiddler:在PC和移动设备上抓取HTTPS数据包
Fiddler是一个免费的Web调试代理,支持任何浏览器、系统以及平台。这个工具是进行Web和App网络开发的必备工具。根据Fiddler官网的描述,具有以下六大特点:Web调试、性能测试、HTTP/HTTPS流量记录、Web会话处理、安全测试、自定义扩展性。本文讨论的主要内容是如何设置Fiddle...
分类:移动开发   时间:2014-06-26 23:38:14    阅读次数:736
tco/iP协议族——IP工作原理及实例详解(下)
IP协议详解 上一篇文章文章主要介绍了IP服务的特点,IPv4头部结构IP分片,并用tcpdump抓取数据包,来观察IP数据报传送过程中IP的格式,以及分片的过程。本文主要介绍IP路由,IP转发,重定向和IPv6头部结构。 IP路由 IP协议的一个核心任务是数据报的路由,即决定发送数据报到目标机器的路径。为了理解IP路由过程,我们先简要分析IP模块的基本流程。...
分类:其他好文   时间:2014-06-26 14:06:40    阅读次数:432
使用HttpWebRequest和HtmlAgilityPack抓取网页(拒绝乱码,拒绝正则表达式)
废话不多说, 直接说需求。公司的网站需要抓取其他网站的文章,但任务没到我这,同事搞了一下午没搞出来。由于刚刚到公司, 想证明下自己,就把活揽过来了。因为以前做过,觉得应该很简单,但当我开始做的时候,我崩溃了,http请求后,得到的是字符串竟然是乱码,然后就各种百度(谷歌一直崩溃中),最后找到了原因。...
分类:Web程序   时间:2014-06-26 12:57:58    阅读次数:373
使用HttpWebRequest和HtmlAgilityPack抓取网页(拒绝乱码,拒绝正则表达式)
废话不多说, 直接说需求。公司的网站需要抓取其他网站的文章,但任务没到我这,同事搞了一下午没搞出来。由于刚刚到公司, 想证明下自己,就把活揽过来了。因为以前做过,觉得应该很简单,但当我开始做的时候,我崩溃了,http请求后,得到的是字符串竟然是乱码,然后就各种百度(谷歌一直崩溃中),最后找到了原因。...
分类:Web程序   时间:2014-06-26 12:53:48    阅读次数:232
屏蔽电信流氓广告造成的诡异的问题--Android WebView 长时间不能加载页面
发现在家里的时候用Android App里的WebView打开网站很慢,会有十几秒甚至更长时间的卡住。 但是在电脑上打开同样的网页却很快。 查找这个问题的过程比较曲折,记录下来。 抓取Android网络数据 为了调试这个问题,首先要抓取Android的网络包数据。开始时,是想用Wireshark来抓包的,但是很麻烦,tcpdump在手机要root权限。 于是转换思路,能不能在Androi...
分类:移动开发   时间:2014-06-26 12:05:30    阅读次数:336
Java抓取网页数据(原网页+Javascript返回数据)
转载请注明出处!原文链接:http://blog.csdn.net/zgyulongfei/article/details/7909006有时候因为种种原因,我们须要採集某个站点的数据,但因为不同站点对数据的显示方式略有不同!本文就用Java给大家演示怎样抓取站点的数据:(1)抓取原网页数据;(2)...
分类:编程语言   时间:2014-06-24 14:33:01    阅读次数:235
ogg进程重新抓取
ogg方面不熟,基本都是出了什么问题,才去查相应的资料。这次是因为一部分归档日志没有了,又因为所涉及的表都是会全量刷新的物化视图,所以准备使用重新抓取的方式,继续使用,以下是步骤查看抓取进程GGSCI (IRMS_DB1) 27> info extnj detailEXTRACT EXTNJ Las...
分类:其他好文   时间:2014-06-24 12:42:38    阅读次数:423
We7的区县网站群建设策略
一.解决门户和委办局、乡镇的互动 构建以区县政府门户为主站,各委办局、乡镇为子站的网站群体系; 基于统一的信息体系,实现分级授权、统一管理的功能。各网站可以有独立的页面展现和管理后台,同时网站之间信息又可以相互共享。信息共享能基于上下级关系有一定的机制,如上级站点可直接抓取下级站点信息,下级站点可向上级或平级站点推送信息等。 彻底的解决门户主站和委办局的互动(自然也可以扩展至和乡镇网站的互动...
分类:Web程序   时间:2014-06-22 22:42:47    阅读次数:327
外交部发言人发言语料简单分析
花了点时间,把外交部网站上的发言人表态一栏中的数据全部抓取下来,按照一定的格式保存于文件中,时间范围是2010-09-14~2014-06-18,如果跑在服务器上的话,可以做增量更新,即若有更新每天下载一篇新的文章。我国的外交部发言人制度是在1983年3月1日开始设立的,但是外交部网站上公布的数据好像只有我拿到的这些。 文件格式如图: (声明:本人只是想把这些答记者问的对话当作自然语言...
分类:其他好文   时间:2014-06-21 20:46:30    阅读次数:208
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!