String Matching
问题描述:字符串匹配指的是在一个文本字符串中查找一个模式字符串的出现位置。这个问题在计算机科学中非常重要,尤其是在文本处理、搜索引擎和数据挖掘等领域。
Online Exact String Matching
在线匹配要求不能对文本进行预处理,并且必需精确匹配。前缀符号:⊏ \sqsubset ⊏ ,后缀:⊐ \sqsupset ⊐ ,定义前缀为P [ : k ] P[:k] P [ : k ]
Overlapping Lemma
Naive String Matching
算法:
从文本的每个位置开始,检查模式是否匹配。
如果匹配,则返回该位置;否则,继续检查下一个位置。
代码:
1 2 3 4 5 6 7 8 9 10 11 12 def naive_string_matching (text, pattern ): n = len (text) m = len (pattern) for i in range (n - m + 1 ): match = True for j in range (m): if text[i + j] != pattern[j]: match = False break if match : return i return -1
时间复杂度为O ( ( n − m + 1 ) m ) O((n-m+1)m) O (( n − m + 1 ) m ) ,其中n n n 是文本长度,m m m 是模式长度。
如果得到pattern的信息,比如没有重复出现的字母,那么可以得到线性时间的算法。
如果发生失配的情况,那么前面失配的部分不可能再一次成功匹配,所有匹配只需要线性的O ( n ) O(n) O ( n ) 时间
Rabin-Karp Algorithm
将文本的匹配转换为数值的匹配。
上述算法存在的问题为:
对文本计算每一个子串对应的整数值
对于较长的m m m 的pattern,没有那么长的整数类型
对于字母表大小有要求
解决方案为:
使用滑动方法来计算文本对应的整数值
使用hash函数来计算子串的hash值,比如使用取模的方法,如果hash值相同,则进行比较
使用不同的进制,使得其匹配字母表的大小
复杂度分析:
计算hash值的复杂度为O ( m ) O(m) O ( m )
计算文本的hash值的复杂度为O ( n ) O(n) O ( n )
在最坏情况下算法复杂度为Θ ( ( n − m + 1 ) m ) \Theta((n-m+1)m) Θ (( n − m + 1 ) m ) ,在平均情况下为O ( n ) + O ( m ( v + n q ) ) O(n) + O(m(v+\frac{n}{q})) O ( n ) + O ( m ( v + q n ))
Finitie automata
用于匹配的有限自动机,M = M M=\mathcal{M} M = M ,是一个五元组 \text{,}\text{是一个五元组} , 是一个五元组 ( Q , Σ , δ , q 0 , F ) (Q, \Sigma, \delta, q_0, F) ( Q , Σ , δ , q 0 , F )
Q Q Q 是状态集合,Q = { 0 , 1 , 2 … m } Q=\{ 0,1,2\dots m\} Q = { 0 , 1 , 2 … m }
q 0 = 0 q_0=0 q 0 = 0 ,F = { m } F = \{m\} F = { m }
定义后缀函数为:
目的为寻找对于一个pattern而言,寻找文本的后缀中最多能匹配多少pattern的前缀内容。定义上面的函数的目的是对于已经匹配的模式串P [ : k ] P[:k] P [ : k ] ,如果在k + 1 k+1 k + 1 的位置输入为a a a ,那么需要P [ : k ] a P[:k]a P [ : k ] a 的部分后缀是pattern的前缀。上面的转移规则将匹配的情况也一同表示。
上面构建的DFA的状态转移表的大小为∣ Σ ∣ × m |\Sigma|\times m ∣Σ∣ × m ,在构建状态转移函数的时候,使用的思路为对于目前的状态再输入一个字符,检查目前输入文本的后缀能匹配pattern前缀部分的长度。
上面是构造DFA的算法,对于模式串的每一个前缀都需要比较,每一个前缀比较的时间复杂度为对应串的平方复杂度,求和得复杂度为O ( m 3 ∣ Σ ∣ ) O(m^3|\Sigma|) O ( m 3 ∣Σ∣ ) ,上面的算法可以进行优化。
KMP Algorithm
KMP算法的核心思想是避免不必要的比较,通过预处理模式字符串来构建一个部分匹配表(也称为前缀表),该表用于在匹配失败时确定下一个要比较的位置。
用前缀函数来表达这样的关系,表达在一个字符串的前缀中,其最大同时为前缀和后缀的字符串长度 ,形式化的表述为:
π [ i ] = max { k ∣ k ≤ i , s.t. p [ 1 : k ] = p [ i − k + 1 : i ] } \pi[i]=\max\{k\mid k\leq i,\text{s.t.}p[1:k]=p[i-k+1:i]\}
π [ i ] = max { k ∣ k ≤ i , s.t. p [ 1 : k ] = p [ i − k + 1 : i ]}
设计原因是利用前缀匹配过程中成功的信息,对于模式串中成功匹配的部分,是否有前缀同时是后缀的情况。
上面给出计算next表的算法,注意第7行回退时,将k k k 回退至π ( k ) \pi(k) π ( k ) 。这是因为,考虑已经匹配的P [ : k ] P[:k] P [ : k ] 和P [ q − k : q − 1 ] P[q-k:q-1] P [ q − k : q − 1 ] 如果在P [ k + 1 ] P[k+1] P [ k + 1 ] 和P [ q ] P[q] P [ q ] 失配,考虑重新匹配的情况P [ : k ′ + 1 ] P[:k^\prime+1] P [ : k ′ + 1 ] 和P [ q − k ′ : q ] P[q-k^\prime:q] P [ q − k ′ : q ] ,必然有P [ : k ′ ] P[:k^\prime] P [ : k ′ ] 和P [ q − k ′ : q − 1 ] P[q-k^\prime:q-1] P [ q − k ′ : q − 1 ] 匹配。即重新找到匹配位置的必要条件为P [ : k ] P[:k] P [ : k ] 中的最大前缀同时为后缀,所以回溯到π ( k ) \pi(k) π ( k ) ,继续匹配。
对上面构建n e x t next n e x t 表的过程进行复杂度分析,核心在于对6,7行运行时间的分析,注意到在运行过程中k k k 是单调递增的且非负,且k k k 的最大值为m − 1 m-1 m − 1 ,所以在整个过程中k k k 最大为m − 1 m-1 m − 1 ,在构建n e x t next n e x t 表过程中总有k < q k<q k < q ,于是k k k 最多减小m − 1 m-1 m − 1 次,于是算法复杂度为Θ ( m ) \Theta(m) Θ ( m )
在上面的KMP的n e x t next n e x t 表构建的过程中仅使用了所谓的“成功的经验”,如果对应相等的前后缀串的后面一个字符仍然相等,此时没有再比较的必要。
If P [ q + 1 ] ≠ T [ i ] P[q+1] \ne T[i] P [ q + 1 ] = T [ i ] , then if P [ π [ q ] + 1 ] = P [ q + 1 ] ≠ T [ i ] P[\pi[q]+1] = P[q+1] \ne T[i] P [ π [ q ] + 1 ] = P [ q + 1 ] = T [ i ] , there is no need to compare P [ π [ q ] + 1 ] P[\pi[q]+1] P [ π [ q ] + 1 ] with T [ i ] T[i] T [ i ] .
Boyer-Moore
字符串匹配 —— BM 算法 - 知乎
当从右侧向左侧开始比较时,可以得到更多的信息 。
当发生失配时,当text中出现pattern中没有出现的字符时,直接将pattern的左端和text的下一个字符对齐。
当发生失配时,当text中的字符在pattern中出现时,直接将pattern中从右向左第一次出现该字符,和text中该字符对齐。
当发生失配时,将已经匹配的后缀部分与pattern中从右向左再一次出现已匹配部分对齐
将上面的观察总结为好字符 和坏字符 规则:
坏字符规则:当发生失配时,直接将pattern中从右向左第一次出现的该字符,和text中该字符对齐。(对于最右边的字符不考虑,因为已经比较过)b m B C [ c ] = { min { i ∣ 1 ≤ i ≤ m − 1 ∧ P [ m − i ] = c } if c ∈ P m otherwise bmBC[c] = \begin{cases}
\min\{i\mid 1 \leq i\leq m-1 \wedge P[m-i]=c\} & \text{if } c \in P \\
m & \text{otherwise}
\end{cases}
bm BC [ c ] = { min { i ∣ 1 ≤ i ≤ m − 1 ∧ P [ m − i ] = c } m if c ∈ P otherwise
数组中保存的是从右向左计数第一次发现字符的位置 ,发生跳跃的距离为s h i f t = b m B C [ c ] + j − m shift = bmBC[c]+ j-m s hi f t = bm BC [ c ] + j − m ,即当前位置和第从右向左第一次出现位置的差。
好字符规则:当发生失配时,将已经匹配的后缀部分与pattern中从右向左再一次出现已匹配部分对齐
考虑失配时,对于已经匹配的P [ m − k + 1 : m ] P[m-k+1:m] P [ m − k + 1 : m ]
情况1:后缀P [ m − k + 1 : m ] P[m-k+1:m] P [ m − k + 1 : m ] 在p a t t e r n pattern p a tt er n 中从右到左第一次出现,记为P [ i − k + 1 : i ] P[i-k+1:i] P [ i − k + 1 : i ] ,并且P [ m − k ] ≠ P [ i − k ] P[m-k]\neq P[i-k] P [ m − k ] = P [ i − k ] 时(所谓失败的经验),将P [ i − k + 1 : i ] P[i-k+1:i] P [ i − k + 1 : i ] 与t e x t text t e x t 中对应部分对齐。
情况2:找不到上面的情况 时,寻找p a t t e r n pattern p a tt er n 串中的前缀和后缀P [ m − k + 1 : m ] P[m-k+1:m] P [ m − k + 1 : m ] 的最大重叠部分,并且将P [ m − k + 1 : m ] P[m-k+1:m] P [ m − k + 1 : m ] 与t e x t text t e x t 中对应部分对齐。
将上面的内容形式化表述为,其中s s s 为s h i f t shift s hi f t 即跳转长度
C s ( i , s ) : for each k s.t. i < k ≤ m , P [ k − s ] = P [ k ] or s ≥ k C o ( i , s ) : if s < i then P [ i − s ] ≠ P [ i ] b m G s [ i ] = min { s > 0 : C s ( i , s ) ∧ C o ( i , s ) } \begin{aligned}
&Cs(i,s): \text{for each k s.t. }i < k\leq m, P[k-s]=P[k] ~\text{or}~s\geq k \\
&Co(i,s): \text{if}~ s<i ~\text{then} P[i-s]\neq P[i]\\
&bmGs[i] = \min\{ s>0: Cs(i,s) \wedge Co(i,s) \}
\end{aligned}
C s ( i , s ) : for each k s.t. i < k ≤ m , P [ k − s ] = P [ k ] or s ≥ k C o ( i , s ) : if s < i then P [ i − s ] = P [ i ] bm G s [ i ] = min { s > 0 : C s ( i , s ) ∧ C o ( i , s )}
算法复杂度为Θ ( m + ∣ Σ ∣ ) \Theta(m+|\Sigma|) Θ ( m + ∣Σ∣ ) ,在 ∣ Σ ∣ ≤ m |\Sigma| \leq m ∣Σ∣ ≤ m 时,复杂度为Θ ( m ) \Theta(m) Θ ( m )
对于好后缀的计算比较复杂
考虑重叠后缀函数Overlapping Suffix Function
O s u f f [ i ] = max { k : P [ i − k + 1 : i ] = P [ m − k + 1 : m ] } Osuff[i]= \max \{ k: P[i-k+1: i]= P[m-k+1:m]\}
O s u ff [ i ] = max { k : P [ i − k + 1 : i ] = P [ m − k + 1 : m ]}
寻找从i i i 位置向前和原pattern串中匹配的最长的后缀,可以使用暴力算法进行计算,朴素实现的时间复杂度为O ( m 2 ) O(m^2) O ( m 2 )
使用反转后的pattern串使用Z算法进行计算,时间复杂度优化为O ( m ) O(m) O ( m ) Z 函数(扩展 KMP) - OI Wiki
在上面的算法中,在5~10行中对应上面好后缀的情况2,由于好后缀要求最小性,所以从 m − 1 m-1 m − 1 开始递减,并且要求j ≤ m − i j \leq m-i j ≤ m − i
在第11~12行对应上面的好后缀情况为1时,由于O s u f f Osuff O s u ff 的最大性,保证了P [ m − O s u f f [ i ] ] ≠ P [ i − O s u f f [ i ] ] P[m-Osuff[i]]\neq P[i-Osuff[i]] P [ m − O s u ff [ i ]] = P [ i − O s u ff [ i ]] 即为上面的好后缀的实现
上面的算法过程中,注意到所有位置的赋值总是单调减小的,即满足上面b m G s bmGs bm G s 的最小性质
上面算法的时间复杂度为Θ ( m ) \Theta(m) Θ ( m )
最终的BM算法的时间复杂度为O ( m + n ) O(m+n) O ( m + n ) ,在最坏情况下为O ( m n ) O(mn) O ( mn )