日韩久久久精品,亚洲精品久久久久久久久久久,亚洲欧美一区二区三区国产精品 ,一区二区福利

Python人工智能之路 之PyAudio 實(shí)現(xiàn)錄音 自動(dòng)化交互實(shí)現(xiàn)問答

系統(tǒng) 2581 0

Python 很強(qiáng)大其原因就是因?yàn)樗嫶蟮娜綆?, 資源是非常的豐富 , 當(dāng)然也不會(huì)缺少關(guān)于音頻的庫

關(guān)于音頻, PyAudio 這個(gè)庫, 可以實(shí)現(xiàn)開啟麥克風(fēng)錄音, 可以播放音頻文件等等,此刻我們不去了解其他的功能,只了解一下它如何實(shí)現(xiàn)錄音的

首先要先 pip 一個(gè) PyAudio

pip install pyaudio

一.PyAudio 實(shí)現(xiàn)麥克風(fēng)錄音

然后建立一個(gè)py文件,復(fù)制如下代碼

            
import pyaudio
import wave
CHUNK = 1024
FORMAT = pyaudio.paInt16
CHANNELS = 2
RATE = 16000
RECORD_SECONDS = 2
WAVE_OUTPUT_FILENAME = "Oldboy.wav"
p = pyaudio.PyAudio()
stream = p.open(format=FORMAT,
        channels=CHANNELS,
        rate=RATE,
        input=True,
        frames_per_buffer=CHUNK)
print("開始錄音,請(qǐng)說話......")
frames = []
for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):
  data = stream.read(CHUNK)
  frames.append(data)
print("錄音結(jié)束,請(qǐng)閉嘴!")
stream.stop_stream()
stream.close()
p.terminate()
wf = wave.open(WAVE_OUTPUT_FILENAME, 'wb')
wf.setnchannels(CHANNELS)
wf.setsampwidth(p.get_sample_size(FORMAT))
wf.setframerate(RATE)
wf.writeframes(b''.join(frames))
wf.close()
          

嘗試一下,在目錄中出現(xiàn)了一個(gè) Oldboy.wav 文件 , 聽一聽,還是很清晰的嘛

接下來,我們將這段錄音代碼,寫在一個(gè)函數(shù)里面,如果要錄音的話就調(diào)用

建立一個(gè)文件 pyrec.py 并將錄音代碼和函數(shù)寫在內(nèi)

            
# pyrec.py 文件內(nèi)容
import pyaudio
import wave
CHUNK = 1024
FORMAT = pyaudio.paInt16
CHANNELS = 2
RATE = 16000
RECORD_SECONDS = 2
def rec(file_name):
  p = pyaudio.PyAudio()
  stream = p.open(format=FORMAT,
          channels=CHANNELS,
          rate=RATE,
          input=True,
          frames_per_buffer=CHUNK)
  print("開始錄音,請(qǐng)說話......")
  frames = []
  for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):
    data = stream.read(CHUNK)
    frames.append(data)
  print("錄音結(jié)束,請(qǐng)閉嘴!")
  stream.stop_stream()
  stream.close()
  p.terminate()
  wf = wave.open(file_name, 'wb')
  wf.setnchannels(CHANNELS)
  wf.setsampwidth(p.get_sample_size(FORMAT))
  wf.setframerate(RATE)
  wf.writeframes(b''.join(frames))
  wf.close()
          

rec 函數(shù)就是我們調(diào)用的錄音函數(shù),并且給他一個(gè)文件名,他就會(huì)自動(dòng)將聲音寫入到文件中了

二.實(shí)現(xiàn)音頻格式自動(dòng)轉(zhuǎn)換 并 調(diào)用語音識(shí)別

錄音的問題解決了,趕快和百度語音識(shí)別接在一起使用一下:

Python人工智能之路 之PyAudio 實(shí)現(xiàn)錄音 自動(dòng)化交互實(shí)現(xiàn)問答_第1張圖片

不管你的錄音有多么多么清晰,你發(fā)現(xiàn)百度給你返回的永遠(yuǎn)是:

            
{'err_msg': 'speech quality error.', 'err_no': 3301, 'sn': '6397933501529645284'} # 音質(zhì)不清晰
          

其實(shí)不是沒聽清,而是百度支持的音頻格式PCM搞的鬼

所以,我們要將錄制的wav音頻文件轉(zhuǎn)換為pcm文件

寫一個(gè)文件 wav2pcm.py 這個(gè)文件里面的函數(shù)是專門為我們轉(zhuǎn)換wav文件的

使用 os 模塊中的 os.system() 方法 這個(gè)方法是執(zhí)行系統(tǒng)命令用的, 在windows系統(tǒng)中的命令就是 cmd 里面寫的東西,dir , cd 這類的命令

            
# wav2pcm.py 文件內(nèi)容
import os
def wav_to_pcm(wav_file):
  # 假設(shè) wav_file = "音頻文件.wav"
  # wav_file.split(".") 得到["音頻文件","wav"] 拿出第一個(gè)結(jié)果"音頻文件" 與 ".pcm" 拼接 等到結(jié)果 "音頻文件.pcm"
  pcm_file = "%s.pcm" %(wav_file.split(".")[0])
  # 就是此前我們?cè)赾md窗口中輸入命令,這里面就是在讓Python幫我們?cè)赾md中執(zhí)行命令
  os.system("ffmpeg -y -i %s -acodec pcm_s16le -f s16le -ac 1 -ar 16000 %s"%(wav_file,pcm_file))
  return pcm_file
          

這樣我們就有了把wav轉(zhuǎn)為pcm的函數(shù)了 , 再重新構(gòu)建一次咱們的代碼

Python人工智能之路 之PyAudio 實(shí)現(xiàn)錄音 自動(dòng)化交互實(shí)現(xiàn)問答_第2張圖片

這次的返回結(jié)果還挺讓人滿意的嘛

            
{'corpus_no': '6569869134617218414', 'err_msg': 'success.', 'err_no': 0, 'result': ['老男孩教育'], 'sn': '8116162981529666859'}
          

拿到語音識(shí)別的字符串了,接下來用這段字符串 語音合成, 學(xué)習(xí)咱們說出來的話

三.語音合成 與 FFmpeg 播放mp3 文件

拿到字符串了,直接調(diào)用synthesis方法去合成吧

Python人工智能之路 之PyAudio 實(shí)現(xiàn)錄音 自動(dòng)化交互實(shí)現(xiàn)問答_第3張圖片

這段代碼銜接上一段代碼,成功獲得了 synth.mp3 音頻文件,并且確定了實(shí)在學(xué)習(xí)我們說的話

接下來就是讓我們的程序自動(dòng)將 synth.mp3 音頻文件播放了 其實(shí)PyAudio 有播放的功能,但是操作有點(diǎn)復(fù)雜

所以我們還是選擇用簡單的方式解決復(fù)雜的問題,就是這么簡單粗暴,是否還記得FFmpeg 呢?

FFmpeg 這個(gè)系統(tǒng)工具中,有一個(gè) ffplay 的工具用來打開并播放音頻文件的,使用方法大概是: ffplay 音頻文件.mp3

建立一個(gè)playmp3.py文件, 寫一個(gè) play_mp3 的函數(shù)用來播放已經(jīng)合成的語音

            
# playmp3.py 文件內(nèi)容
import os
def play_mp3(file_name):
  os.system("ffplay %s"%(file_name))
          

回到主文件,調(diào)用playmp3.py文件中的 play_mp3 函數(shù)

Python人工智能之路 之PyAudio 實(shí)現(xiàn)錄音 自動(dòng)化交互實(shí)現(xiàn)問答_第4張圖片

執(zhí)行代碼,當(dāng)你看到 : 開始錄音,請(qǐng)說話......

請(qǐng)大聲的說出: 學(xué)IT 找老男孩教育

然后你就會(huì)聽到,一個(gè)嬌滴滴聲音重復(fù)你說的話

四.簡單問答

首先我們要把代碼重新梳理一下:

把語音合成 語音識(shí)別部分的代碼獨(dú)立成函數(shù)放到baidu_ai.py文件中

            
# baidu_ai.py 文件內(nèi)容
from aip import AipSpeech
# 這里的三個(gè)參數(shù),對(duì)應(yīng)在百度語音創(chuàng)建的應(yīng)用中的三個(gè)參數(shù)
APP_ID = "xxxxx"
API_KEY = "xxxxxxx"
SECRET_KEY = "xxxxxxxx"
client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
def audio_to_text(pcm_file):
  # 讀取文件 , 終于得到了PCM文件
  with open(pcm_file, 'rb') as fp:
    file_context = fp.read()
  # 識(shí)別本地文件
  res = client.asr(file_context, 'pcm', 16000, {
    'dev_pid': 1536,
  })
  # 從字典里面獲取"result"的value 列表中第1個(gè)元素,就是識(shí)別出來的字符串"老男孩教育"
  res_str = res.get("result")[0]
  return res_str
def text_to_audio(res_str):
  synth_file = "synth.mp3"
  synth_context = client.synthesis(res_str, "zh", 1, {
    "vol": 5,
    "spd": 4,
    "pit": 9,
    "per": 4
  })
  with open(synth_file, "wb") as f:
    f.write(synth_context)
  return synth_file
          

然后把我們的主文件進(jìn)行一下修改

            
import pyrec # 錄音函數(shù)文件
import wav2pcm # wav轉(zhuǎn)換pcm 函數(shù)文件
import baidu_ai # 語音合成函數(shù),語音識(shí)別函數(shù) 文件
import playmp3 # 播放mp3 函數(shù) 文件
pyrec.rec("1.wav") # 錄音并生成wav文件,使用方式傳入文件名
pcm_file = wav2pcm.wav_to_pcm("1.wav") # 將wav文件 轉(zhuǎn)換成pcm文件 返回 pcm的文件名
res_str = baidu_ai.audio_to_text(pcm_file) # 將轉(zhuǎn)換后的pcm音頻文件識(shí)別成 文字 res_str
synth_file = baidu_ai.text_to_audio(res_str) # 將res_str 字符串 合成語音 返回文件名 synth_file
playmp3.play_mp3(synth_file) # 播放 synth_file
          

然后就是大展宏圖的時(shí)候了,展開你們的想象力:

res_str 是字符串,如果字符串等于"你叫什么名字"的時(shí)候,我們就要給他一個(gè)回答:我的名字叫老男孩教育

新建一個(gè)FAQ.py的文件然后建立一個(gè)函數(shù)faq:

            
# FAQ.py 文件內(nèi)容
def faq(Q):
  if Q == "你叫什么名字": # 問題
    return "我的名字是老男孩教育" # 答案
  return "我不知道你在說什么" #問題沒有答案時(shí)返
          

在主文件中導(dǎo)入這個(gè)函數(shù),并將語音識(shí)別后的字符串傳入函數(shù)中

Python人工智能之路 之PyAudio 實(shí)現(xiàn)錄音 自動(dòng)化交互實(shí)現(xiàn)問答_第5張圖片

現(xiàn)在來嘗試一下:"你叫什么名字","你今年幾歲了"

成功了,現(xiàn)在你可以對(duì) FAQ.py 這個(gè)文件進(jìn)行更多的問題匹配了

還是那句話,別玩兒壞了

思考題:

1.如何實(shí)現(xiàn)一直問答不用問一次停一次?

2.問題那么多,是不是要寫這么多問題呢?

3.如果我問你是誰,是不是要重復(fù)也一次 我的名字叫老男孩教育 的答案呢?

總結(jié)

以上所述是小編給大家介紹的Python人工智能之路 之PyAudio 實(shí)現(xiàn)錄音 自動(dòng)化交互實(shí)現(xiàn)問答 ,希望對(duì)大家有所幫助,如果大家有任何疑問請(qǐng)給我留言,小編會(huì)及時(shí)回復(fù)大家的。在此也非常感謝大家對(duì)腳本之家網(wǎng)站的支持!
如果你覺得本文對(duì)你有幫助,歡迎轉(zhuǎn)載,煩請(qǐng)注明出處,謝謝!


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號(hào)聯(lián)系: 360901061

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長非常感激您!手機(jī)微信長按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對(duì)您有幫助就好】

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對(duì)您有幫助,請(qǐng)用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會(huì)非常 感謝您的哦!!!

發(fā)表我的評(píng)論
最新評(píng)論 總共0條評(píng)論
主站蜘蛛池模板: 福安市| 周宁县| 东明县| 土默特右旗| 乾安县| 积石山| 上思县| 邹城市| 炉霍县| 当阳市| 福建省| 阿城市| 连南| 莎车县| 温宿县| 始兴县| 江山市| 高陵县| 宿松县| 阿合奇县| 英吉沙县| 平阴县| 舟曲县| 奉化市| 阿克陶县| 滨州市| 同心县| 东丰县| 荣成市| 获嘉县| 宿州市| 栾川县| 麻城市| 铅山县| 台前县| 柏乡县| 沧源| 赤水市| 竹溪县| 土默特左旗| 桃园县|