码迷,mamicode.com
首页 >  
搜索关键字:爬虫    ( 10452个结果
python爬虫--解析网页几种方法之正则表达式
1、正则表达式 正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。 re 模块使 Python 语言拥有全部的正则表达式功能。 re.match函数 re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。 结 ...
分类:编程语言   时间:2017-09-30 20:03:11    阅读次数:215
C#最基本的小说爬虫
新手学习C#,自己折腾弄了个简单的小说爬虫,实现了把小说内容爬下来写入txt,还只能爬指定网站。 第一次搞爬虫,涉及到了网络协议,正则表达式,弄得手忙脚乱跑起来效率还差劲,慢慢改吧。 爬的目标:http://www.166xs.com/xiaoshuo/83/83557/ 一、先写HttpWebRe ...
分类:Windows程序   时间:2017-09-30 18:03:22    阅读次数:277
python超精简【博客园】爬虫(果然比C#好用的多)
无意间看到了网上python爬1024的文章,就想着晚点自己去撸一个全自动小电影下载器(就不用每次选半天了),上班挂着,下班回去就可以看了(身体已经被妹纸掏空了,还看),于是自己先试着写一个简单的爬虫,目标自然是博客园:使用简单的正则表达式匹配,当然也可以使用网上广泛使用的BeautifulSoup ...
分类:编程语言   时间:2017-09-30 17:41:16    阅读次数:175
一个更加简单粗暴的爬虫-必应今日美图
今天上午看到一篇文章:一个简单粗暴的爬虫 - 必应今日美图。我也用自己的方式更加简单的实现了这个功能。下面我就贴一下自己的代码和思路。 我就不分析原博的思路了,原博写的很清楚。我用的是htmlunit,从原博的第三步开始,观察三级地址的规律,从http://bing.plmeizi.com/show ...
分类:其他好文   时间:2017-09-30 16:24:59    阅读次数:216
python网页爬虫浅析
Python网页爬虫简介:有时候我们需要把一个网页的图片copy下来。通常手工的方式是鼠标右键savepictureas...python网页爬虫可以一次性把所有图片copy下来。步骤如下:1.读取要爬虫的html2.对爬下来的html进行存储并处理:存储原始html过滤生成list正则匹配出picture的连接3.根据..
分类:编程语言   时间:2017-09-30 15:11:00    阅读次数:115
python爬虫--爬取豆瓣top250电影名
关于模拟浏览器登录的header,可以在相应网站按F12调取出编辑器,点击netwook,如下: 以便于不会被网站反爬虫拒绝。 ...
分类:编程语言   时间:2017-09-30 13:22:19    阅读次数:197
Node.js 使用爬虫批量下载网络图片到本地
图片网站往往广告众多,用Node.js写个爬虫下载图片,代码不长,省事不少,比手动一张张保存简直是天与地的区别。 下面代码是一个从mtl.ttsqgs.com下载图片的程序,图片地址是看网站源码看出来的,总共有多少张也可以再源码里找到,然后就是按图索骥。 2017年9月30日10:43:27 ...
分类:Web程序   时间:2017-09-30 11:29:54    阅读次数:164
Python爬虫异常处理
Python爬虫异常主要分为URLError和HTTPError: 1.URLError: URLError错误发生的可能原因有: 网络无连接,即本机无法上网 链接不到特定服务器 服务器不存在 那么,我们可以通过使用try-except语句来捕获错误提示信息, 在上面的例子中,Request的对象是 ...
分类:编程语言   时间:2017-09-29 21:28:23    阅读次数:259
一个简单粗暴的爬虫 - 必应今日美图
1. 必应今日美图 当使用bing搜索时,每天都会出现一副美图。 搜索找到bing今日美图 http://bing.plmeizi.com/ 目前共47页 url格式按 http://bing.plmeizi.com/?page=* 点进去就是我们要的名称和名称 2. 开始编码 使用简单的Jsoup ...
分类:其他好文   时间:2017-09-29 19:52:24    阅读次数:227
python3 爬虫随机User-Agent
''' Created on 2017年9月25日 @author: kearney ''' import random def get_UserAgents(): UserAgents= [ "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3) Apple... ...
分类:编程语言   时间:2017-09-29 19:40:39    阅读次数:266
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!