说明:和上一个下载百度贴吧图片差不多,修改了正则,加入了页码控制#!/usr/bin/env python
#! -*- coding: utf-8 -*-
#图片地址样例:src="http://ww2.sinaimg.cn/large/005Yan1vjw1erf95qkbfog307e08uu0y.gif" style="width:460px"
import urllib,urllib2
i...
分类:
编程语言 时间:
2015-04-26 13:53:49
阅读次数:
160
网上好多抓取贴吧的小爬虫都失效了,原因是百度贴吧的编码格式变了,或者是html代码变了,像这种简单的读取源代码的爬虫,只要网页源代码改变之后就得重新修改。
请诸位大牛指点。# -*- coding:utf8 -*-
"""
程序就是读取网页的源代码,如果想获取相应的内容就找到其特定的格式,再利用正则表达式来获取。
"""
import string
import urllib2
import r...
分类:
编程语言 时间:
2015-04-24 09:06:46
阅读次数:
177
说明:和上一个下载百度贴吧图片差不多,修改了正则,加入了页码控制;
此外也加入了输出格式控制,如果想加入手动设定存储路径功能,可以参考之前的百度贴吧爬虫#!/usr/bin/env python
#! -*- coding: utf-8 -*-
#图片地址样例:src="http://ww2.sinaimg.cn/large/005Yan1vjw1erf95qkbfog307e08uu0y.gif...
分类:
编程语言 时间:
2015-04-23 13:18:49
阅读次数:
228
osg与qt配置环境的讲解:
http://blog.csdn.net/sadasasdasd/article/details/44573637
osg与qt百度贴吧:
http://tieba.baidu.com/f?ie=utf-8&kw=osg%E4%B8%8Eqt&fr=search
配置环境第一讲试看地址:链接:http://pan.ba...
分类:
其他好文 时间:
2015-04-22 09:32:33
阅读次数:
419
现有的HTTP-POST请求信息还原工具都是基于特征(包括网络应用的行为识别特征与信息提取特征)的,而特征的获取往往依赖于人工分析。本文以分析百度贴吧客户端的发帖为例,说明这种基于人工分析获取HTTP-POST请求报文特征的一般流程。...
分类:
Web程序 时间:
2015-04-09 21:59:44
阅读次数:
252
这个学期开设了编译原理和形式语言与自动机,里面都有介绍过正则表达式,今天自己学了学用python正则表达式写爬虫
一、网络爬虫的定义
网络爬虫,即Web Spider,是一个很形象的名字。
把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。
网络蜘蛛是通过网页的链接地址来寻找网页的。
从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址...
分类:
编程语言 时间:
2015-04-04 23:49:43
阅读次数:
1019
百度贴吧没考虑点击劫持防御,可造成恶意刷粉丝。估计很多地方都没考虑,还可以继续挖。点击劫持(ClickJacking)是由互联网安全专家罗伯特.汉森和耶利米.格劳斯在2008年首创的。是一种视觉欺骗手段,在Web端就是Iframe嵌套一个透明不可见的页面,让用户在不知情的情况下,点击攻击者想要欺骗用...
分类:
其他好文 时间:
2015-04-03 22:25:16
阅读次数:
310
osg与qt配置环境的讲解:
http://blog.csdn.net/sadasasdasd/article/details/44573637
osg与qt百度贴吧:
http://tieba.baidu.com/f?ie=utf-8&kw=osg%E4%B8%8Eqt&fr=search
配置环境第一讲试看地址:链接:http://pan.baidu.com/s/1g...
分类:
其他好文 时间:
2015-03-30 11:23:00
阅读次数:
176
kali root用户是英文界面的怎么改成中文界面_linux吧_百度贴吧dpkg-reconfigure locales 选择字符编码:en_US.UTF-8、zh_CN.GBK、zh_CN.UTF-8选择字符:zh_CN.UTF-8(记得用空格)修改 /etc/default/locale LA...
分类:
系统相关 时间:
2015-03-06 18:44:31
阅读次数:
598
2015年3月5日 14:36:44目标, 实现类似百度贴吧的基本功能实现:1. 存储, 将数据库(MYSQL)当作一个大的结构体数组, 每一条记录用作为一个结构体, 记录父帖信息, 子帖信息, 兄弟帖信息2. 显示, 因为回复帖在浏览器中显示的时候也是独占一行, 只是比楼主的帖子多了些缩进而已, ...
分类:
Web程序 时间:
2015-03-05 16:23:29
阅读次数:
165