語音識別是計算機軟件識別口語中的單詞和短語并將其轉(zhuǎn)換為人類可讀文本的能力。在本教程中,你將知道如何使用SpeechRecognition 庫在Python中將語音轉(zhuǎn)換為文本 。 因此,我們不需要從頭開始構(gòu)建任何機器學(xué)習模型,該庫為我們提供了各種著名的公共語音識別API(例如Google Cloud Speech API,IBM Speech To Text等)的便捷包裝。 讓我們開始吧,首先使用pip安裝庫: pip3 install SpeechRecognition Okey,打開一個新的Python文件并導(dǎo)入它: import speech_recognition as sr 從文件讀取 確保當前目錄中有一個音頻文件: filename = 'speech.wav' 該文件是從 LibriSpeech 數(shù)據(jù)集中獲取的,但是你可以帶上你想要的轉(zhuǎn)換的東西,只需要更改一下文件名即可,現(xiàn)在讓我們初始化語音識別器: # initialize the recognizer r = sr.Recognizer() 以下代碼負責加載音頻文件,并使用Google Speech Recognition將語音轉(zhuǎn)換為文本: # open the file with sr.AudioFile(filename) as source: 這將需要幾秒鐘才能完成,因為它將文件上傳到Google中獲取到輸出,這是我獲取到的結(jié)果: I believe you're just talking nonsense 從麥克風讀取 這需要在你的機器上安裝PyAudio,以下是取決于你的操作系統(tǒng)的安裝過程: Windows系統(tǒng) 你可以點安裝它:pip3 install pyaudio Linux系統(tǒng) 需要安裝依賴項: sudo apt-get install python-pyaudio python3-pyaudio pip3 install pyaudio 蘋果系統(tǒng) 需要先安裝portaudio,然后才可以安裝它: brew install portaudio pip3 install pyaudio 現(xiàn)在,讓我們使用麥克風轉(zhuǎn)換語音: with sr.Microphone() as source: 它會從你的麥克風錄取到5秒鐘,然后嘗試將語音轉(zhuǎn)換為文本! 它與先前的代碼非常相似,但是我們在這里使用Microphone()對象從默認麥克風讀取音頻,然后在record()函數(shù)中使用duration參數(shù)在5秒后停止讀取,然后上傳音頻數(shù)據(jù)向Google獲取輸出文本。 你還可以在record()函數(shù)中使用offset參數(shù)在偏移幾秒鐘后開始記錄。 另外,你也可以通過將language參數(shù)傳遞給accept_google()函數(shù)來識別不同的語言。例如,如果你想識別別的語言(如:西班牙語音),則可以使用: text = r.recognize_google(audio_data, language='es-ES') 使用此庫將語音轉(zhuǎn)換為文本非常簡單。該庫在國外被廣泛使用,如果有需要可以去掌握它。 |
|
來自: flyk0tcfb46p9f > 《AI》