js 字符串搜索算法

sailinglee

浏览: 303814 次
性别:
来自: 上海

最近访客更多访客>>

zq_0752

1040087877

HUAGE1969

leimingchao

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

HTML & JS & DOM & CSS

基本搜索：

function search(source, subject){  
	var srcLen = source.length;  
	var subLen = subject.length;  
			  
	for(var i=0; i<srcLen-subLen; i++){  
		var k = i;  
		for(var j=0; j<subLen; j++,k++){  
			if(source.charAt(k)!=subject.charAt(j))  
				break;  
			if(j == subLen-1)  
				return i;  
		}  
	}  
	return -1;  
}

kmp快速搜索：

KMP的优势就是没有回溯，这对于只能够使用一个指针进行搜索的情况下，不仅仅有效率上的优势，实现起来也更自然。当然对于数组来说，使用俩指针并没有什么不便，如果是对于文件或者输入流进行搜索，那回溯起来就会很麻烦了。下面是KMP搜索。

KMP算法的核心就是不回溯原字符串指针，这点其实不难做到，重要的是要想到这一点——对于回溯的字符，其实都是已知的。解释一下就是，比如在"abcdefg"中搜索"abcdeg"，前五个字符"abcde"都是匹配的，第六个字符f和g不匹配，这时候，对于上面的搜索算法，i将会+1，整个匹配重新开始一次，这就是回溯了。但是仔细想一下，回溯其实完全可以避免的，因为如果知道是在第六个字符不匹配，那就说明前五个字符都是匹配的，从而说明"知道回溯之后的字符是什么"，对于这个例子来说，我们肯定知道源字符串前面五个字符是"abcde"。这是KMP搜索的根基。

好，下面让我们抛开源字符串吧！我们只关心目标字符串，也就是"abcdeg"。下面我们来设想，如果在搜索中发现源字符串的【n】字符和目标字符串的【m】字符匹配失败，那说明什么呢？说明之前的字符都是匹配的，否则也不会走到这里。也就是源字符串的【n-m】到【n-1】这m个字符与目标字符串的【0】到【m-1】这m个字符匹配。既然已经在搜索之前知道这个相等关系，那何苦在搜索的时候一次又一次的回溯呢？这个本来就是可以预测的，是搞一次就得的事情。因为源字符串的【n-m】到【n-1】是已知的。所以不用每次都死板的回溯到源字符串的n-m+1。

举例来说，对于在"abababc"中搜索"ababc"，第一次不匹配的情况如下

1
0 1 2 3 4 5 6

2
a b a b a b c

3
a b a b c

4

        ^

这时候，如果把指针回溯到源字符串的1位置，其实没有意义的，因为它是b，和目标字符串的a不匹配。而且，我们其实已经知道源字符串0到3这四个字符的值是跟目标字符串的四个字符一样的，都是abab。KMP的思想就是，充分利用这个已知条件，"源字符串不回溯，尽量让目标字符串少回溯，然后继续进行搜索"。那应该让目标字符串回溯到什么地方呢？这就看已经匹配的字符串的内容了。

使用S代表源字符串，T代表目标字符串，S[n]和T[m]失配（注意，因为失配了，这时候S[n]是什么是不知道的）。对于源字符串已知的只有S[n-m+1]到S[n-1]这m-1个字符。假设能够找到这样一个k，使得S[n-k]...S[n-1]=T[0]....T[k-1] (0<k<m)，那么就只需要保持S不回溯，让T回溯到K，然后继续匹配就好了。而如果能够找到一个最大的K值，那么效率则是最高的。

对于上面的例子，k的值是2，KMP搜索的下一个状态是：

1
0 1 2 3 4 5 6

2
a b a b a b c

3

    a b a b c

4

        ^

然后继续匹配就成功啦。

所以，KMP算法的核心是，如何为目标字符串的每个位置的找到一个k值，组成一个数组F，好在每次匹配到目标字符串的m失配的时候，将目标字符串回溯到F[m]，然后继续进行匹配。找到这个数组之后，KMP搜索就算是完成80%了。

下面是构建这个数组F的方法。

这时候目标字符串身兼源字符串和目标字符串两个角色。构建数组T可以说是一个步进的过程，需要用到之前的结果。首先是F[0]，F[0]的意思是第一个字符就不匹配，也就是说对源字符串一无所知，这时候没得搞了，直接要源字符串向前挪动一个。在F里，我们使用-1来标记第一个字符就匹配失败的情况。也就是F[0]=-1。F[1]其实肯定是0。我们真正需要计算的是从F[2]到最后的。下面是>=2的时候的计算方法。注意，F[i]代表S的第i个字符匹配"失败"的时候，T需要回溯到的索引的值。如何求F[i]的值呢？首先取得F[i-1]的值，然后看S[i-1]是否=T[F[i-1]]，如果等于，那么F[i]=F[i-1]+1。这个原理是递归的。F[i-1]的值是在i-1失配的时候，T索引回溯到的值，如果这时候，这个值与S[i-1]相等，那就说明F[i]可以在F[i-1]的基础上增加1了。否则继续检查S[i-1]是否等于T[[F[i-1]]]，直到没有的搜索了，就是0。

代码如下：

function kmpSearch(source, subject){  
	var srcLen = source.length;  
	var subLen = subject.length;  
	var pattern = [];  
	prefix(subject, pattern);  
			  
	for(var index=0,p=0; index<srcLen; index++){  
		if(source.charAt(index) == subject.charAt(p)){  
			p++;  
			if(p == subLen)  
				return index - subLen + 1;  
		}else{  
			p = pattern[p];  
		}     
	}     
	return -1;  
}  
		
function prefix(subject,pattern){  
	var subLen = subject.length;  
	pattern[0] = 0;  
	for(var i=1,k=0; i<subLen; i++){  
		while ((subject.charAt(i) != subject.charAt(k)) && k > 0){  
			k = pattern[k];               
		}         
		if(subject.charAt(i) == subject.charAt(k)){  
			k++;  
		}  
		pattern[i] = k;  
	}  
}

分享到：

Try.js-1.0 release | http状态码

2011-09-06 16:47
浏览 1360
评论(1)
分类:Web前端
查看更多

1 楼 anlaetion 2012-04-05

这算法可以有

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论