文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

python语音唤醒-pocketsph

2023-01-31 07:33

关注

使用pocketsphinx模块,实现唤醒词功能。

运行环境:

win10 + Python3.6.2

安装模块包:

地址:https://pypi.org/project/pocketsphinx/

> pip install pocketsphinx
C:\Users\qpf10>pip install pocketsphinx
Collecting pocketsphinx
  Downloading https://files.pythonhosted.org/packages/52/53/30b12c3e4de918e32e73e9d635b4c9e1765512acc94ad0b51bfe960b54c9/pocketsphinx-0.1.15-cp36-cp36m-win_amd64.whl (29.1MB)
    100% |████████████████████████████████| 29.1MB 104kB/s
Installing collected packages: pocketsphinx
Successfully installed pocketsphinx-0.1.15

pypi官方简介:

Pocketsphinx是CMU Sphinx语音识别开源工具包的一部分。
这个包为使用SWIG和Setuptools创建的CMU Sphinxbase和Pocketsphinx库提供了一个python接口。

一、运行官方自带案例-LiveSpeech

原文:It's an iterator class for continuous recognition or keyword search from a microphone.
有道翻译:它是一个迭代器类,用于从麦克风连续识别或关键字搜索。

在pycharm中运行代码,完美运行。

import os
from pocketsphinx import LiveSpeech, get_model_path

model_path = get_model_path()

speech = LiveSpeech(
    verbose=False,
    sampling_rate=16000,
    buffer_size=2048,
    no_search=False,
    full_utt=False,
    hmm=os.path.join(model_path, 'en-us'),
    lm=os.path.join(model_path, 'en-us.lm.bin'),
    dic=os.path.join(model_path, 'cmudict-en-us.dict')
)
for phrase in speech:
    print("phrase:", phrase)
    print(phrase.segments(detailed=True))

运行后,我说了两句(发音不标准),一句hello,一句hello word,显示结果:感觉识别的很有问题。。。虽说不标准,但是不至于这个情况。

Allocating 32 buffers of 2500 samples each
phrase: i'm
[('<s>', -7, 37837, 37890), ('<sil>', -6, 37891, 38010), ("i'm(2)", -913, 38011, 38064), ('[SPEECH]', -6069, 38065, 38070), ('</s>', 0, 38071, 38078)]
phrase: hello or earth
[('<s>', -5, 186767, 186778), ('hello', -9386, 186779, 186834), ('or', -3672, 186835, 186854), ('earth', -1192, 186855, 186904), ('</s>', 0, 186905, 186907)]

二、运行中文语言模型内容

  • 参考博客:
    https://blog.csdn.net/zouxy09/article/details/14222605

添加中文语言模型和中文声学模型

  • 中文相关文件下载地址:
    https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/Mandarin/
    1. 声学模型:zh_broadcastnews_16k_ptm256_8000.tar.bz2
    2. 语言模型:zh_broadcastnews_64000_utf8.DMP
    3. 拼音字典:zh_broadcastnews_utf8.dic
  • 拷贝到model文件夹下:

    将文件放到PHTHON_HOME的pocketsphinx模块包下,我这里是在C:\Python36\Lib\site-packages\pocketsphinx\model

放代码:没有变化,只是加载的目录文件变了。

import os
from pocketsphinx import LiveSpeech, get_model_path

model_path = get_model_path()

speech = LiveSpeech(
    verbose=False,
    sampling_rate=16000,
    buffer_size=2048,
    no_search=False,
    full_utt=False,
    hmm=os.path.join(model_path, 'zh/zh_broadcastnews_16k_ptm256_8000'),
    lm=os.path.join(model_path, 'zh/zh_broadcastnews_64000_utf8.DMP'),
    dic=os.path.join(model_path, 'zh/zh_broadcastnews_utf8.dic')
)
for phrase in speech:
    print("phrase:", phrase)
    print(phrase.segments(detailed=True))

运行后的结果,还是非常的不准确。虽说带点东北口音,但是识别的还是挺差的。。。说的,你好,你好吗,滚。还说了挺多其他的,都没有很好的效果,就不贴了。
运行后,半天才反应过来开始识别,不知道是什么原因,刚开始我还以为是程序监听不到语音呢。

Allocating 32 buffers of 2500 samples each
phrase: 尼 尔 奥
[('<s>', 2, 2645708, 2645714), ('尼', -357, 2645715, 2645771), ('尔(2)', -2, 2645772, 2645811), ('奥', -42088, 2645812, 2645853), ('</s>', 0, 2645854, 2645857)]
phrase: 尼 尔 欧盟
[('<s>', -2, 2828757, 2828765), ('尼', -11911, 2828766, 2828782), ('尔(2)', -2519, 2828783, 2828837), ('欧盟', 0, 2828838, 2828868), ('</s>', 0, 2828869, 2828872)]
phrase: 不同
[('<s>', 1, 3023056, 3023061), ('不同', -18424, 3023062, 3023128), ('</s>', 0, 3023129, 3023133)]

还会出现如下这种空的情况- -!:
phrase: 
[('<s>', -4, 6295811, 6295819), ('++incomplete++', 0, 6295820, 6295973), ('</s>', 0, 6295974, 6296015)]

三、运行自定义的中文语言模型内容

这里有个前提:我只把pocketsphinx当做唤醒词来使用。

具体操作步骤

  1. 编辑一个自定义的keyword.txt文本,里面写入打算唤醒的中文词语,和发音可能混淆的词(如果拼音相同只记录一个就行)。再添加一些其他的乱七八糟的词,这样匹配的时候就不会一直匹配唤醒词了。(唤醒词的重点)
    以小贝为例,则keyword.txt中的内容如下:
    小贝
    小魏
    巧倍
    啊
    呵呵
    哈哈
    么么哒
  2. 在[http://www.speech.cs.cmu.edu/tools/lmtool-new.html] 上面训练上一步的keyword文本。会生成“随机数.lm”和“随机数.dic”,下载这两个文件就可以。用来替代语言模型和拼音字典。
    如:
    1234.lm
    1234.dic
  3. 编辑下载的随机数.dic文件,对照着zh_broadcastnews_utf8.dic的拼音字典,更改成与其同样格式的内容。原字典中不一定会有相同的词语,有的话,就按照原先的写,没有的话,就按照单个发音的写上就可以。
    例如:
    小贝 x i ao b ei
    小魏 x i ao w ei
    巧倍 q i ao b ei
    啊 a as
    .
    .
    .
  4. 在代码中,替换掉对应的lm和dic路径。
import os
from pocketsphinx import LiveSpeech, get_model_path

model_path = get_model_path()

speech = LiveSpeech(
    verbose=False,
    sampling_rate=16000,
    buffer_size=2048,
    no_search=False,
    full_utt=False,
    hmm=os.path.join(model_path, 'zh/zh_broadcastnews_16k_ptm256_8000'),
    lm=os.path.join(model_path, 'zh/1234.lm'),  # 这个目录位置自己设置
    dic=os.path.join(model_path, 'zh/1234.dic')  # 同上
)
for phrase in speech:
    print("phrase:", phrase)
    print(phrase.segments(detailed=True))
    # 只要命中上述关键词的内容,都算对
    if str(phrase) in ["小贝", "小魏", "巧倍"]:
    print("正确识别唤醒词")
阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯