1.昨天复习了Java基础(I/O流)和正则表达式 今天不讲Java中的 
I/O 主要用一个实例来爬取网站中的邮箱代码如下: 1 package com.miao.baba.pacong; 2 3 import 
java.io.BufferedReader; 4 import java.io.IO....
                            
                            
                                分类:
编程语言   时间:
2014-05-29 05:11:03   
                                阅读次数:
404
                             
                    
                        
                            
                            
                                if we want to filter with sed pattern and just 
print the filtered lines without any further editing , we can do it like thisls 
-a1 ~ | sed -ne "/^\./p...
                            
                            
                                分类:
其他好文   时间:
2014-05-28 22:58:56   
                                阅读次数:
294
                             
                    
                        
                            
                            
                                /g意思就是:global可选标志,带这个标志表示替换将针对行中每个匹配的串进行,否则则只替换行中第一个匹配串。如:we.fdffddfwe.加上/g后,则2个we都会出来;/i意思就是 
case insensitive,区分大小写小字。如:sw与sW不管;/d意思是digital.是一个数字如:/...
                            
                            
                                分类:
其他好文   时间:
2014-05-27 16:57:49   
                                阅读次数:
234
                             
                    
                        
                            
                            
                                从HTML页面提取内容所面临的主要问题是,我们必须寻找一种方法精确地识别出自己想要的那一部分内容。以下是利用正则表达式匹配并提取网页中特定信息的方法:采集网页中所有链接标记:]*?>[\s\S]*?以上可以修改a标记采集对应的标记元素。采集图片:]*?/?>以上可以修改img标记采集对应的标记元素。...
                            
                            
                                分类:
Web程序   时间:
2014-05-26 19:12:12   
                                阅读次数:
288
                             
                    
                        
                            
                            
                                能举个例子吗?我也知道是括号里面取得值 但是哪个和哪个括号不清楚 
还有是小括号中括号大括号也不清楚 能举个实例吗?$1,$2...是表示的小括号里的内容 $1是第一个小括号里的 ,$2是第2个小括号里的 比如 
/gai([\w]+?)over([\d]+)/ 匹配 gainover123 $1= 括...
                            
                            
                                分类:
其他好文   时间:
2014-05-26 00:04:22   
                                阅读次数:
282
                             
                    
                        
                            
                            
                                #encoding:utf-8
import sys
reload(sys)
sys.setdefaultencoding('utf8')
from sgmllib import SGMLParser
import re
import urllib
class URLLister(SGMLParser):  
	  
	def start_a(self, attrs):
		url = [v ...
                            
                            
                                分类:
编程语言   时间:
2014-05-25 22:47:56   
                                阅读次数:
340
                             
                    
                        
                            
                            
                                敏感词、文字过滤是一个网站必不可少的功能,如何设计一个好的、高效的过滤算法是非常有必要的。前段时间我一个朋友(马上毕业,接触编程不久)要我帮他看一个文字过滤的东西,它说检索效率非常慢。我把它程序拿过来一看,整个过程如下:读取敏感词库、如果HashSet集合中,获取页面上传文字,然后进行匹配。我就想这个过程肯定是非常慢的。对于他这个没有接触的人来说我想也只能想到这个,更高级点就是正则表达式。但是非常...
                            
                            
                                分类:
编程语言   时间:
2014-05-25 21:26:01   
                                阅读次数:
386
                             
                    
                        
                            
                            
                                参考资料:cocoachina的zys475481075的文章
 
几个单词
 
Regular 
['regj?l?]
adj. 
定期的;有规律的
Expression
[?k'spre?(?)n;
 ek-] n. 
表现,表示
Regular
expression
正则表达式
 
什么是正则表达式?
 
 
用一个描述字符串去验证另一个字符串是否符合描...
                            
                            
                                分类:
移动开发   时间:
2014-05-25 16:17:20   
                                阅读次数:
270
                             
                    
                        
                            
                            
                                正则表达式正则用来从字符串筛选出子字符串。简单使用编辑器搜索时,勾选上正则,可以搜索出满足特定条件的结果。\bfunction\b这样可以搜索出function单词。做搜索功能时 
var reg = new RegExp(inpStr); apps.forEach(function (v, i).....
                            
                            
                                分类:
编程语言   时间:
2014-05-25 16:05:08   
                                阅读次数:
272
                             
                    
                        
                            
                            
                                一、基础javascript允许你通过以下两种方式创建RegExp对象,1)直接量。2)使用RegExp()varpattern=/java$/;//直接量创建
varpattern=newRegExp("java$");
二、元字符
正则表达式中,字母和数字都是按照字面意思进行匹配的,同时javascript也支持非字母的..
                            
                            
                                分类:
编程语言   时间:
2014-05-25 04:56:22   
                                阅读次数:
462