爬虫工具:webmagic 爬取百度图片,不能通过获取html然后通过匹配标签的形式,而是要找到对应的提供json数据的请求,这个坑我踩了两三个小时,最初自信满满的按官方文档注解形式写了model,pipeline,然后就运行时就发现问题很大。 开始是获取不到html,然后通过调试发现可以获得ray ...
分类:
其他好文 时间:
2018-10-13 15:43:09
阅读次数:
180
什么时候用resultType?什么时候用resultMap? resultMap:当查询结果和pojo类不能直接对应时,可以使用resultMap对查询结果和pojo做一个映射,使其匹配。 标签:resultMap 标签结构: <resultMap id="" type=""> <id colum ...
分类:
其他好文 时间:
2018-05-12 03:07:48
阅读次数:
149
正则匹配所有的a标签 <a\b[^>]+\bhref="([^"]*)"[^>]*>([\s\S]*?)</a>分组1和分组2即为href和value解释:<a\b #匹配a标签的开始[^>]+ #匹配a标签中href之前的内容\bhref="([^"]*)" #匹配href的值,并将匹配内容捕获到 ...
分类:
其他好文 时间:
2018-03-14 15:54:07
阅读次数:
167
这里以a标签为例 a标签的href var str = "Lorem ipsum text 1 Lorem ipsum text 2"; str.replace(/(. ?)/g, function(match, g1) { console.log(g1); }); // text 1 text 2 ...
分类:
其他好文 时间:
2018-02-08 20:01:38
阅读次数:
188
<a\b[^>]+\bhref="([^"]*)"[^>]*>([\s\S]*?)</a> 分组1和分组2即为href和value 解释: <a\b #匹配a标签的开始 [^>]+ #匹配a标签中href之前的内容 \bhref="([^"]*)" #匹配href的值,并将匹配内容捕获到分组1当中 ...
分类:
其他好文 时间:
2017-07-04 09:57:12
阅读次数:
147
string regStr = "([\\w\\W]+?)";//匹配A标签正则表达式 Regex tmpReg = new Regex(regStr, RegexOptions.Compiled); MatchCollection matcheList = tmpReg.Matches(xml);... ...
分类:
其他好文 时间:
2017-03-31 15:58:46
阅读次数:
204
<a\b[^>]+\bhref="([^"]*)"[^>]*>([\s\S]*?)</a>分组1和分组2即为href和value解释:<a\b #匹配a标签的开始[^>]+ #匹配a标签中href之前的内容\bhref="([^"]*)" #匹配href的值,并将匹配内容捕获到分组1当中[^>]*> ...
分类:
其他好文 时间:
2017-02-05 21:23:08
阅读次数:
270
--首先,感谢黑板客老师做了这个爬虫闯关系列,让大家学习到不少知识。 第一关:将网页提示的数字加在网址后面 解题思路: 1、找到数字对应的html标签,用正则匹配标签内容。 2、将数字提取出来加到第一关网址后面,获取新的数字。 解题过程: 第二关: 解题思路:从0~30依次尝试登录。 第三关:在第二 ...
分类:
其他好文 时间:
2016-06-04 22:10:31
阅读次数:
371
string str = @"鹏哥Csdn免积分下载器\r\nV1.0\r\n2014-10-23\r\n \r\nQQ靓号申请助手\r\nV1.0\r\n2014-10-23"; List list = new List(...
分类:
Web程序 时间:
2015-10-21 00:24:36
阅读次数:
161
php匹配指定div内容,在用php编写采集程序的时候,抓取到的网页数据有时候我们只需要一小段标签内容,怎么才能冲html代码中提取出来呢,这里提供一个函数示例,实现php匹配任意html标签内的所有内容:/**
*匹配任意id的html标签内容
*
*/
functiongetWebTag($tag_id,$tag=‘div‘..
分类:
Web程序 时间:
2015-06-15 00:26:06
阅读次数:
119