文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

AI虚拟点读机,手势识别+OCR+语音TTS

2024-11-30 12:02

关注

最近在研究AIGC方面的内容,好久没有更新公众号内容。

今天给大家分享的是用计算机视觉技术做一个虚拟点读机。

图片

技术上很简单,只不过工程实现先有些细节需要注意。

1. 思路

  1. OpenCV读取视频流,识别食指坐标
  2. 用两个食指坐标作为顶点,画一个矩形框
  3. 截取矩形框,送入OCR模型识别文本
  4. 用语音合成引擎TTS将文本合成语音
  5. 调用音频播放模块,播放声音

2. 细节处理

OpenCV读取视频流、mediapipe识别食指坐标,之前的分享的文章都有代码,这里就不贴了,重点说下需要处理的细节。

细节1. 检测到两个食指时,需要设置一个时间间隔,这样可以给你预留一些时间来调整矩形框

if self.point_start_time is None:
    # 首次同时检测到左右食指
    self.point_start_time = time.time()
else:
    time_del = time.time() - self.point_start_time
    if time_del > 3:

图片

细节2. 设置标记,防止重复识别

矩形框一旦确定,如果没有标记,每一帧都会送入OCR模型识别、然后播放声音,这样程序就会卡死。

需要设置标记,保证任何时刻只处理一个矩形框。

if not self.is_processing:
  # 开始识别
  self.is_processing = True
  # ocr识别选定的图片
  t, b = min(p0_y, p1_y), max(p0_y, p1_y)
  l, r = min(p0_x, p1_x), max(p0_x, p1_x)

  selected_frame = frame[t:b, l:r]
  # ocr识别文字
  text = self.ocr_rec(selected_frame)
  # 文本转语音
  voice = self.tts.get_speech(text)
  # 播放语音
  self.player.play(voice, False, notallow=lambda: self.stop_play())
  self.pc_time = time.time()

细节3. 多线程处理

播放音频的时候需要用多线程播放,不然主程序会卡死,知道音频播放完成才能继续运行。

如果识别的内容很多,播放时间长,程序就会一直卡着很长时间没有反应。

3. 其他技术

关于OCR和TTS技术之前的文章都有介绍过。

OCR直接用Paddle框架和预训练好的模型就行。

TTS如果是Mac可以使用系统自带的,不需要安装其他程序。如果是Windows可以使用微软的edge-tts。edge-tts效果比大部分tts强太多。

也可以用d-id、wav2lip或者sadtalker实现唇形合成,让静态图片朗读文本内容。

来源:渡码内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯