文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

如何使用Python和创建简单语音识别引擎

2023-06-16 14:43

关注

如何使用Python和创建简单语音识别引擎,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。

语音识别是机器或程序识别口语中的单词和短语并将其转换为机器可读格式的能力。通常,这些算法的简单实现有一个有限的词汇表,它可能只识别单词/短语。但是,更复杂的算法(例如Cloud  Speech-to-Text和Amazon Transcribe)具有广泛的词汇量,并包含方言、噪音和俚语。

简介

语音只是由我们的声带引起的空气周围振动而产生的一系列声波。这些声波由麦克风记录,然后转换为电信号。然后使用高级信号处理技术处理信号,分离音节和单词。得益于深度学习方面令人难以置信的新进展,计算机也可以从经验中学习理解语音。

语音识别通过声学和语言建模使用算法来工作。声学建模表示语音和音频信号的语言单元之间的关系;语言建模将声音与单词序列进行匹配,以帮助区分听起来相似的单词。通常,基于循环层的深度学习模型用于识别语音中的时间模式,以提高系统内的准确性。也可以使用其他方法,例如隐马尔可夫模型(第一个语音识别算法是使用这种方法)。在本文中,我将仅讨论声学模型。

信号处理

有多种方法可以将音频波转换为算法可以处理的元素,其中一种方法(在本教程中将使用的一种方法)是在等距的点上记录声波的高度:

如何使用Python和创建简单语音识别引擎

我们每秒读取数千次,并记录一个代表当时声波高度的数字。这是一个未压缩的.wav音频文件。“ CD质量”音频以44.1  kHz(每秒44,100个读数)采样。但是对于语音识别而言,16khz(每秒16,000个样本)的采样率足以覆盖人类语音的频率范围。

用这种方法,音频是通过一个数字向量来表示的,其中每个数字以1/16000秒的间隔表示声波的振幅。这个过程类似于图像预处理,如下例所示:

如何使用Python和创建简单语音识别引擎

多亏尼奎斯特定理(1933年— 弗拉基米尔·科特尔尼科夫(Vladimir  Kotelnikov)),我们知道,只要采样速度至少是我们要记录的最高频率的两倍,我们就可以使用数学方法从间隔采样中完美重建原始声波。

Python库

为了完成这个任务,我使用Anaconda环境(Python 3.7)和以下Python库:

from tensorflow.compat.v1 import ConfigProto from tensorflow.compat.v1 import Session import os import librosa import IPython.display as ipd import matplotlib.pyplot as plt import numpy as np from scipy.io import wavfile import warnings  config = ConfigProto() config.gpu_options.allow_growth = True sess = Session(config=config)  warnings.filterwarnings("ignore")

1.数据集

我们在实验中使用TensorFlow提供的语音指令数据集。它包括由成千上万不同的人发出的由30个短单词组成的65000个一秒钟长的话语。我们将建立一个语音识别系统,它可以理解简单的语音命令。您可以从此处下载数据集(https://www.kaggle.com/c/tensorflow-speech-recognition-challenge)。

2.预处理音频波

在使用的数据集中,一些记录的持续时间少于1秒,并且采样率太高。因此,让我们阅读声波并使用下面的预处理步骤来解决这个问题。这是我们要执行的两个步骤:

让我们在下面的Python代码片段中定义这些预处理步骤:

train_audio_path = './train/audio/'  all_wave = [] all_label = [] for label in labels:     print(label)     waves = [f for f in os.listdir(train_audio_path + '/'+ label) if f.endswith('.wav')]     for wav in waves:         samples, sample_rate = librosa.load(train_audio_path + '/' + label + '/' + wav, sr = 16000)         samples = librosa.resample(samples, sample_rate, 8000)         if(len(samples)== 8000) :              all_wave.append(samples)             all_label.append(label)

由上可知,信号的采样率为16000 hz。我们把它重采样到8000赫兹,因为大多数语音相关的频率都在8000赫兹。

第二步是处理我们的标签,这里我们将输出标签转换为整数编码,将整数编码标签转换为one-hot 向量,因为这是一个多目标问题:

from sklearn.preprocessing import LabelEncoder from keras.utils import np_utils  label_enconder = LabelEncoder() y = label_enconder.fit_transform(all_label) classes = list(label_enconder.classes_) y = np_utils.to_categorical(y, num_classes=len(labels))

预处理步骤的最后一步是将2D数组reshape为3D,因为conv1d的输入必须是3D数组:

all_wave = np.array(all_wave).reshape(-1,8000,1)

3.创建训练和验证集

为了执行我们的深度学习模型,我们将需要生成两个集合(训练和验证)。对于此实验,我使用80%的数据训练模型,并在其余20%的数据上进行验证:

from sklearn.model_selection import train_test_split x_train, x_valid, y_train, y_valid = train_test_split(np.array(all_wave),np.array(y),stratify=y,test_size = 0.2,random_state=777,shuffle=True)

4.机器学习模型架构

我使用Conv1d和GRU层来建模用于语音识别的网络。Conv1d是一个仅在一维上进行卷积的卷积神经网络,而GRU的目标是解决标准循环神经网络的梯度消失问题。GRU也可以看作是LSTM的一个变体,因为两者的设计相似,在某些情况下,可以产生同样优秀的结果。

该模型基于deepspeech h3和Wav2letter++  algoritms这两种著名的语音识别方法。下面的代码演示了使用Keras提出的模型:

from keras.layers import Bidirectional, BatchNormalization, CuDNNGRU, TimeDistributed from keras.layers import Dense, Dropout, Flatten, Conv1D, Input, MaxPooling1D from keras.models import Model from keras.callbacks import EarlyStopping, ModelCheckpoint from keras import backend as K K.clear_session()  inputs = Input(shape=(8000,1)) x = BatchNormalization(axis=-1, momentum=0.99, epsilon=1e-3, center=True, scale=True)(inputs) #First Conv1D layer x = Conv1D(8,13, padding='valid', activation='relu', strides=1)(x) x = MaxPooling1D(3)(x) x = Dropout(0.3)(x) #Second Conv1D layer x = Conv1D(16, 11, padding='valid', activation='relu', strides=1)(x) x = MaxPooling1D(3)(x) x = Dropout(0.3)(x) #Third Conv1D layer x = Conv1D(32, 9, padding='valid', activation='relu', strides=1)(x) x = MaxPooling1D(3)(x) x = Dropout(0.3)(x) x = BatchNormalization(axis=-1, momentum=0.99, epsilon=1e-3, center=True, scale=True)(x) x = Bidirectional(CuDNNGRU(128, return_sequences=True), merge_mode='sum')(x) x = Bidirectional(CuDNNGRU(128, return_sequences=True), merge_mode='sum')(x) x = Bidirectional(CuDNNGRU(128, return_sequences=False), merge_mode='sum')(x) x = BatchNormalization(axis=-1, momentum=0.99, epsilon=1e-3, center=True, scale=True)(x) #Flatten layer # x = Flatten()(x) #Dense Layer 1 x = Dense(256, activation='relu')(x) outputs = Dense(len(labels), activation="softmax")(x) model = Model(inputs, outputs) model.summary()
如何使用Python和创建简单语音识别引擎

注意:如果仅使用CPU来训练此模型,请用GRU替换CuDNNGRU层。

下一步是将损失函数定义为分类交叉熵,因为它是一个多类分类问题:

model.compile(loss='categorical_crossentropy',optimizer='nadam',metrics=['accuracy'])

Early stopping和模型检查点是回调,以在适当的时间停止训练神经网络并在每个epoch后保存最佳模型:

early_stop = EarlyStopping(monitor='val_loss', mode='min', verbose=1, patience=10, min_delta=0.0001)  checkpoint = ModelCheckpoint('speech3text_model.hdf5', monitor='val_acc', verbose=1, save_best_only=True, mode='max')

让我们在32的batch size上训练机器学习模型,并评估保留集上的性能:

hist = model.fit(     x=x_train,      y=y_train,     epochs=100,      callbacks=[early_stop, checkpoint],      batch_size=32,      validation_data=(x_valid,y_valid) )

该命令的输出为:

如何使用Python和创建简单语音识别引擎

5.可视化

我将依靠可视化来了解机器学习模型在一段时间内的性能:

from matplotlib import pyplot pyplot.plot(hist.history['loss'], label='train') pyplot.plot(hist.history['val_loss'], label='test') pyplot.legend() pyplot.show()
如何使用Python和创建简单语音识别引擎

6.预测

在这一步中,我们将加载最佳的权重,并定义识别音频和将其转换为文本的函数:

from keras.models import load_model model = load_model('speech3text_model.hdf5')  def s2t_predict(audio, shape_num=8000):     prob=model.predict(audio.reshape(1,shape_num,1))     index=np.argmax(prob[0])     return classes[index]

对验证数据进行预测:

import random index=random.randint(0,len(x_valid)-1) samples=x_valid[index].ravel() print("Audio:",classes[np.argmax(y_valid[index])]) ipd.Audio(samples, rate=8000)

这是一个提示用户录制语音命令的脚本。可以录制自己的语音命令,并在机器学习模型上测试:

import sounddevice as sd import soundfile as sf  samplerate = 16000   duration = 1 # seconds filename = 'yes.wav' print("start") mydata = sd.rec(int(samplerate * duration), samplerate=samplerate,     channels=1, blocking=True) print("end") sd.wait() sf.write(filename, mydata, samplerate)

最后,我们创建一个脚本来读取保存的语音命令并将其转换为文本:

#reading the voice commands test, test_rate = librosa.load('./test/left.wav', sr = 16000) test_sample = librosa.resample(test, test_rate, 4351) print(test_sample.shape) ipd.Audio(test_sample,rate=8000)  #converting voice commands to text s2t_predict(test_sample)

最后

语音识别技术已经成为我们日常生活的一部分,但目前仍局限于相对简单的命令。随着技术的进步,研究人员将能够创造出更多能够理解会话语音的智能系统。

关于如何使用Python和创建简单语音识别引擎问题的解答就分享到这里了,希望以上内容可以对大家有一定的帮助,如果你还有很多疑惑没有解开,可以关注编程网行业资讯频道了解更多相关知识。

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     807人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     351人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     314人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     433人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     221人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯