文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

使用OpenAI的Whisper模型将语音转换成文本

2024-11-30 05:32

关注

审校 | 重楼

图1. OpenAI Whisper模型的工作原理图

这个日益数字化的世界,将语音转换文本的需求变得越来越重要。无论为了可访问性、内容创建、数据分析还是其他用途,将口语转换书面语都是一个需要有效解决方案的问题。OpenAI开发的人工智能模型Whisper就能做到这一点将口语转化易于理解的文本。

文将逐步介绍Whisper是什么、它是如何工作的以及如何有效使用它。目前WhisperAIModels.fyi排名第19,这款功能强大的工具可以在各种应用中发挥巨大作用。本文还将探讨如何使用AIModels.fyi找到适合您独特需求的类似模型

Whisper模型简介

OpenAI开发的AI模型Whisper旨在将音频文件中的语音转换为文本。应用非常广泛,从生成视频字幕到转录采访或会议文字,不一而足Whisper的运行次数超过了200次,在同类产品中脱颖而出,是一种可靠且受欢迎的模型

该模型接受音频输入并将其转录成书面文字,有效地弥合了口语和书面语之间的差距。此外,它支持大量语言,因而成为适合多语言项目的出色工具。关于该模型的更多详细信息可以在详情页面上找到

Whisper模型的输入和输出

在深入研究Whisper模型的使用之前,了解模型的输入和输出很重要

输入

Whisper的主要输入是一个音频文件,它对其进行处理并转录成文本。额外的输入参数允许您定制模型的操作方式

输出

模型输出含有已转录文本的对象,带有几个字段

我们了解了模型的输入和输出,不妨看看如何使用它来解决我们的转录问题

使用Whisper模型将语音转录文本

无论是喜欢动手操作的程序员,还是偏爱交互性较强的演示方法,使用Whisper模型都简单直接。

第1身份验证

首先,需要安装Replicate Node.js客户软件,并使用API令牌进行身份验证。这允许您以编程方式与Whisper模型进行交互。


npm install replicate

 export REPLICATE_API_TOKEN=your_api_token_here

第2步:运行模型

完成身份验证后,您可以用音频输入来运行模型:

import Replicate from "replicate";

const replicate = new Replicate({
 auth: process.env.REPLICATE_API_TOKEN,
});

const output = await replicate.run(
 "openai/whisper:91ee9c0c3df30478510ff8c8a3a545add1ad0259ad3a9f78fba57fbc05ee64f7",
 {
 input: {
 audio: "your_audio_here"
 }
 }

您还可以设置预测完成后所调用的Web钩子(webhook),这适用于异步处理:

const prediction = await replicate.predictions.create({
 version: "91ee9c0c3df30478510ff8c8a3a545add1ad0259ad3a9f78fba57fbc05ee64f7",
 input: {
 audio: "your_audio_here"
 },
 webhook: "https://example.com/your-webhook",
 webhook_events_filter: ["completed"]
});

进一步使用AIMmodels.fyi找到其他音频到文本模型

也许您想将Whisper与其他模型进行比较,或者探究同一问题领域的其他模型。怎样才能找到它们?AIModels.fyi正是满足这个用途上佳资源,它有一个完全可搜索和可过滤的数据,列有来自各种平台的AI模型

1访问AIModels.fyi

进入到AIModels.fyi,开始寻找类似的模型。

2使用搜索栏

使用页面顶部的搜索栏搜索具有特定关键字的模型,比如“audio-to-text”或“transcription”。这将显示相关模型列表。

第3筛选结果

使用搜索栏后,您可以通过使用页面左侧的过滤器进一步缩小结果范围。可以根据各种标准筛选和搜索模型,包括如下:

第4:探究模型细节

一旦找到了一个感兴趣的模型,点击它来查看更多的细节。您能够看到阐述全面的模型特点,包括输入和输出、性能指标和用例。

结语

无论是经验丰富的开发人员还是AI领域的新手,OpenAI的Whisper都是一个易于使用且功能强大的工具,可以将语音转换文本。若结合AIModels.fyi之类的资源,现在比以往任何时候更容易找到适合您独特项目需求的完美模型。立即开始探究起来吧!

原文Converting Speech into Text with OpenAI's Whisper Model,作者:Mike Young


来源:51CTO内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯