Go 數(shù)據(jù)結(jié)構(gòu)和算法篇(十一):字符串匹配之 BF 算法

接下來的三篇教程,將由淺及深地給大家介紹三個常見的字符串匹配算法。
首先從最簡單的字符串匹配算法 —— BF 算法說起,BF 是 Brute Force 的縮寫,中文譯作暴力匹配算法,也叫樸素匹配算法。
實(shí)現(xiàn)原理
BF 算法的原理很簡單,在繼續(xù)介紹之前,我們先引入兩個術(shù)語:主串和模式串。簡單來說,我們要在字符串 A 中查找子串 B,那么 A 就是主串,B 就是模式串。
作為最簡單、最暴力的字符串匹配算法,BF 算法的思想可以用一句話來概括,那就是,如果主串長度為 n,模式串長度為 m,我們在主串中檢查起始位置分別是 0、1、2…n-m 且長度為 m 的 n-m+1 個子串,看有沒有跟模式串匹配的。圖示如下:

結(jié)合上圖,具體來說,就是每次拿模式串和主串對齊,然后從左到右依次比較每個字符,如果出現(xiàn)不相等,則把模式串往后移一個位置,再次重復(fù)上述步驟,直到模式串每個字符與對應(yīng)主串位置字符都相等,則返回主串對應(yīng)下標(biāo),表示找到,否則返回 -1,表示沒找到。
示例代碼
下面我們基于 BF 算法來實(shí)現(xiàn)一個 Go 語言版的字符串查找函數(shù):
package main
import "fmt"
// BF 算法實(shí)現(xiàn)函數(shù)
func bfSearch(s, p string) int {
begin := 0
i, j := 0, 0
n, m := len(s), len(p) // 主串、子串長度
for i = 0; i < n; begin++ {
// 通過 BF 算法暴力匹配子串和主串
for j = 0; j < m; j++ {
if i < n && s[i] == p[j] {
// 如果子串和主串對應(yīng)字符相等,逐一往后匹配
i++
} else {
// 否則退出當(dāng)前循環(huán),從主串下一個字符繼續(xù)開始匹配
break
}
}
if j == m {
// 子串遍歷完,表面已經(jīng)找到,返回對應(yīng)下標(biāo)
return i - j
}
// 從下一個位置繼續(xù)開始匹配
i = begin
i++
}
return -1
}
// 基于 BF 算法實(shí)現(xiàn)字符串查找函數(shù)
func strStrV1(haystack, needle string) int {
// 子串長度=0
if len(needle) == 0 {
return 0
}
//主串長度=0,或者主串長度小于子串長度
if len(haystack) == 0 || len(haystack) < len(needle) {
return -1
}
// 調(diào)用 BF 算法查找子串
return bfSearch(haystack, needle)
}
func main() {
s := "Hello, 學(xué)院君!"
p := "學(xué)院君"
pos := strStrV1(s, p)
fmt.Printf("Find \"%s\" at %d in \"%s\"\n", p, pos, s)
}
執(zhí)行上述代碼,打印結(jié)果如下:

性能分析
這個算法很好理解,因?yàn)檫@就是我們正常都能想到的暴力匹配,BF 算法的時間復(fù)雜度最差是 O(n*m),意味著要模式串要移到主串 n-m 的位置上,并且模式串每個字符都要與子串比較。
盡管 BF 算法復(fù)雜度看起來很高,但是在日常開發(fā)中,如果主串和模式串規(guī)模不大的話,該算法依然比較常用,因?yàn)樽銐蚝唵危瑢?shí)現(xiàn)起來容易,不容易出錯。另外,在規(guī)模不大的情況下,開銷也可以接受,畢竟 O(n*m) 是最差的表現(xiàn),大部分時候,執(zhí)行效率比這個都要高。
但是對于對時間要求比較敏感,或者需要高頻匹配,數(shù)據(jù)規(guī)模較大的情況下,比如編輯器中的匹配功能、敏感詞匹配系統(tǒng)等,BF 算法就不適用了,后面我們將介紹更高級的字符串匹配算法來處理這些場景需求。
(本文完)
推薦閱讀
