文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

如何使YOLOv5在检测到目标后进行声音告警提示?

2023-09-02 19:30

关注

说在前面的话

导师有一个异常行为检测的小任务(吸烟行为检测),给我让我和师弟一起去完成。本身以为在YOLOv5的detect.py检测脚本中加入语音提示很简单,但是其中的过程却是一言难尽。
这也是查阅了很多资料,尝试过了各种大佬分享的经验,集百家之长完成了这个任务,感谢CSDN中各位有开源精神的大佬的代码分享。

一、语音生成脚本

首先先安装好这个库:pyttsx3
在PyCharm这个软件中打开命令行(或叫:终端),激活自己所需的虚拟环境,
然后输入指令: pip install pyttsx3
等待安装完成即可。
语音生成、合成脚本如下:

# 导入pyttsx3库import pyttsx3class Voice():      def __init__(self):            self.engine = pyttsx3.init()  # 创建engine并初始化            self.engine.setProperty('rate', 150)            self.engine.setProperty('volume', 1.0)  # 在0到1之间重设音量      def synthesis(self, text, filename):            self.engine.save_to_file(text, filename)            self.engine.runAndWait()      def play(self, filename):            self.engine.say(filename)            self.engine.runAndWait()            self.engine.stop()if __name__ == "__main__":      speech = Voice()      speech.synthesis('注意,请勿吸烟!', '请勿吸烟.mp3') #此句是在当前文件目录下生成mp3文件, #语音内容就是:注意,请勿吸烟!      speech.play('注意,请勿吸烟') #此句是直接合成语音并播放

二、本地语音播放软件

首先选取FFmpeg播放器来播放自己录制好的mp3文件,FFmpeg拥有LGPL/GPL许可和前沿音/视频编解码库libavcodec,使用方便,功能强大。虽然FFmpeg(Fast Forward mpeg视频编码标准)在Linux系统开发并且在Linux系统使用较多,但在windows系统下也同样可以用来录制、编解码、转换、流化音视频等。FFmpeg在各种各样的构建环境、机器架构和配置下编译、运行,支持Linux、Mac OS X、Microsoft Windows、bsd、Solaris等。

FFmpeg具体下载地址:https://github.com/BtbN/FFmpeg-Builds/releases,如下图:

在这里插入图片描述

下载ffmpeg-N-104947-g631e31773b-win64-gpl.zip文件
在这里插入图片描述
解压fmpeg-N-104947-g631e31773b-win64-gpl.zip文件,里面有这些:

ffmpeg.exe:音视频转码、转换器。
ffplay.exe:简单的音视频播放器。
ffprobe.exe:简单的多媒体码流分析器。

三、YOLOv5的detect.py程序改进

在detect.py代码中修改!!

仔细找程序,睁大眼睛
第一步:
找到光标定位到的这里
未改动之前的
插入如下代码

value = det[:, 4].max().item()  # 解决的是看到视频就报警 每取四个值 找到最大 大于0.5才播放告警语音if value > 0.5:  # 大于0.5播放警示语音    count += 1  # count等于一个滤波 小延时 防止误报 累计5个数之后再报    if count > 5:        count = 0        if time.time() - tplay > 1.8:  # 防止声音叠加 1.8s播放完再继续           import os  #           os.system(                     'start /b D:/Teacher_project/yolov5-v5s-smoke/ffmpeg/bin/ffplay.exe -autoexit -nodisp D:/Teacher_project/yolov5-v5s-smoke/abc.mp3')  # 音乐播放                        #参数含义: start /b 后台启动    ffplay音乐播放软件的位置                            #-autoexit 播放完毕自动退出    -nodisp不显示窗口     mp3语音的位置路径           tplay = time.time()  # 当前系统时钟

效果如下:
在这里插入图片描述
第二步:
再找到光标定位到的这里:
在这里插入图片描述

加入如下代码:
t0 = time.time()
count = 0
tplay = 0

效果如下:
在这里插入图片描述
到这里就改完了,运行detect.py脚本就行。

四、代码思想解释

这是集百家之长所得。
加入后台语音播放的记录:(总体原理如下)
第一步计算每四帧图像的最大置信度是为了解决人眼还没看到烟时,计算机已经识别到其中一帧大于阈值的问题,选取四帧计算最大值增加了可靠性。
计算后的置信度大于阈值进入下一步,否则返回上一步继续等待,阈值设定为0.5。
count计数滤波相当于设置了一个滤波器,用较短的延时滤除掉一些小毛刺,减少误报的几率,提升准确性。
使用time.time函数计算时间差是为了完整的播放语音,防止吸烟出现时语音叠加;时间差大于设定值时播放对应语音,否则返回上一步 继续等待,设定值设置为3.0s。这个值取决于由语音的时长;最后播放对应语音时, 首先使用‘start /b’开始播放语音,可以设置为后台启动,解决了播放语音时视频卡帧的问题, 同时在后缀加上‘-autoexit’,播放完语音后自动退出,解决了语音播放完之后,窗口卡 顿的问题,再加上‘-nodisp’,可以不显示语音播放窗口。

五、效果展示

背景音有点嘈杂,大家凑合看一下吧。

素材

六、写在后面

①之前也尝试过采用多线程技术来解决这个问题,但是奈何我代码水平太差,无法将detect.py中的代码改成我需要的样子,所以放弃这个想法了。
②其实文章中的做法不是多线程,是进行的后台调用,但是最终达到的效果是差不多的。

七、最后的最后

为自己推销一下。这里还有标注好的吸烟数据集、接打电话手机数据集、电梯按键数据集,训练好的YOLOv5检测权重,YOLOv5的改进好的方案(如注意力机制、结构改进等),有需要的同学私信滴滴我哦,绝对物美价廉。

来源地址:https://blog.csdn.net/Mr_LanGX/article/details/128027716

阅读原文内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯