Python調(diào)用百度API實(shí)現(xiàn)語音識別(一)
咪哥雜談

本篇閱讀時(shí)間約為 2 分鐘。
1
前言
有了上篇文章野狼disco的音頻,今天就來帶大家玩一下百度的API,如何借用百度 API 的語音識別功能,將我們的音頻轉(zhuǎn)為文字。最終落地到 word 中。
當(dāng)然,轉(zhuǎn)為文字后,也為之前語音機(jī)器人做了鋪墊,轉(zhuǎn)換的文字可以寫入到程序中,后續(xù)機(jī)器人朗讀聲音而用。
2
百度?API 官網(wǎng)準(zhǔn)備工作
1. 搜索

2. 開放能力 ->?語音技術(shù) -> 語音識別

可以看到這里有三種語音類型,點(diǎn)哪個(gè)都行,這里選擇語音識別即可。

先點(diǎn)擊技術(shù)文檔看下:

左側(cè)實(shí)際上只包含了標(biāo)準(zhǔn)版和極速版,沒有看到長語音版。
對比了下價(jià)格,果斷選擇了標(biāo)準(zhǔn)版!自己玩,怎么實(shí)惠怎么來!

看了上面普通版的文檔,有幾點(diǎn)需要注意的:
1.?格式
原始 PCM 的錄音參數(shù)必須符合 16k 采樣率、16bit 位深、單聲道,支持的格式有:pcm(不壓縮)、wav(不壓縮,pcm編碼)、amr(壓縮格式)。
百度開放平臺
2.?時(shí)長
目前系統(tǒng)支持的語音時(shí)長上限為60s,請不要超過這個(gè)長度,否則會(huì)返回錯(cuò)誤。
百度開放平臺
3
注冊獲取key
這意味著你需要去人家平臺注冊,獲取到人家平臺給你頒發(fā)的身份驗(yàn)證。也就是 key 之類的信息。
查看 Python SDK 文檔發(fā)現(xiàn):

文檔頁的右上側(cè),有個(gè)控制臺,點(diǎn)進(jìn)去,自己注冊下。
1.?左側(cè)音頻圖標(biāo) -> 創(chuàng)建應(yīng)用

2.?填寫信息

3.?完成


4
總結(jié)
前戲已備好,key等信息已經(jīng)有了。只需要記住上面說的兩個(gè)注意點(diǎn)即可。
下一篇開始我們真正的編碼。
有什么問題,歡迎評論區(qū)留言!

?Python打造自己的語音機(jī)器人設(shè)計(jì)思路Python實(shí)現(xiàn)電腦錄音(含音頻基礎(chǔ)知識講解)
你點(diǎn)的每個(gè)在看,我都認(rèn)真當(dāng)成了喜歡評論
圖片
表情
