1、正则表达式 正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。 re 模块使 Python 语言拥有全部的正则表达式功能。 re.match函数 re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。 结 ...
分类:
编程语言 时间:
2017-09-30 20:03:11
阅读次数:
215
新手学习C#,自己折腾弄了个简单的小说爬虫,实现了把小说内容爬下来写入txt,还只能爬指定网站。 第一次搞爬虫,涉及到了网络协议,正则表达式,弄得手忙脚乱跑起来效率还差劲,慢慢改吧。 爬的目标:http://www.166xs.com/xiaoshuo/83/83557/ 一、先写HttpWebRe ...
无意间看到了网上python爬1024的文章,就想着晚点自己去撸一个全自动小电影下载器(就不用每次选半天了),上班挂着,下班回去就可以看了(身体已经被妹纸掏空了,还看),于是自己先试着写一个简单的爬虫,目标自然是博客园:使用简单的正则表达式匹配,当然也可以使用网上广泛使用的BeautifulSoup ...
分类:
编程语言 时间:
2017-09-30 17:41:16
阅读次数:
175
今天上午看到一篇文章:一个简单粗暴的爬虫 - 必应今日美图。我也用自己的方式更加简单的实现了这个功能。下面我就贴一下自己的代码和思路。 我就不分析原博的思路了,原博写的很清楚。我用的是htmlunit,从原博的第三步开始,观察三级地址的规律,从http://bing.plmeizi.com/show ...
分类:
其他好文 时间:
2017-09-30 16:24:59
阅读次数:
216
Python网页爬虫简介:有时候我们需要把一个网页的图片copy下来。通常手工的方式是鼠标右键savepictureas...python网页爬虫可以一次性把所有图片copy下来。步骤如下:1.读取要爬虫的html2.对爬下来的html进行存储并处理:存储原始html过滤生成list正则匹配出picture的连接3.根据..
分类:
编程语言 时间:
2017-09-30 15:11:00
阅读次数:
115
关于模拟浏览器登录的header,可以在相应网站按F12调取出编辑器,点击netwook,如下: 以便于不会被网站反爬虫拒绝。 ...
分类:
编程语言 时间:
2017-09-30 13:22:19
阅读次数:
197
图片网站往往广告众多,用Node.js写个爬虫下载图片,代码不长,省事不少,比手动一张张保存简直是天与地的区别。 下面代码是一个从mtl.ttsqgs.com下载图片的程序,图片地址是看网站源码看出来的,总共有多少张也可以再源码里找到,然后就是按图索骥。 2017年9月30日10:43:27 ...
分类:
Web程序 时间:
2017-09-30 11:29:54
阅读次数:
164
Python爬虫异常主要分为URLError和HTTPError: 1.URLError: URLError错误发生的可能原因有: 网络无连接,即本机无法上网 链接不到特定服务器 服务器不存在 那么,我们可以通过使用try-except语句来捕获错误提示信息, 在上面的例子中,Request的对象是 ...
分类:
编程语言 时间:
2017-09-29 21:28:23
阅读次数:
259
1. 必应今日美图 当使用bing搜索时,每天都会出现一副美图。 搜索找到bing今日美图 http://bing.plmeizi.com/ 目前共47页 url格式按 http://bing.plmeizi.com/?page=* 点进去就是我们要的名称和名称 2. 开始编码 使用简单的Jsoup ...
分类:
其他好文 时间:
2017-09-29 19:52:24
阅读次数:
227
''' Created on 2017年9月25日 @author: kearney ''' import random def get_UserAgents(): UserAgents= [ "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3) Apple... ...
分类:
编程语言 时间:
2017-09-29 19:40:39
阅读次数:
266