使用OpenAI的Whisper模型将语音转换成文本-编程学习网

审校 | 重楼

图1. OpenAI Whisper模型的工作原理图

在这个日益数字化的世界，将语音转换成文本的需求变得越来越重要。无论为了可访问性、内容创建、数据分析还是其他用途，将口语转换成书面语都是一个需要有效解决方案的问题。OpenAI开发的人工智能模型Whisper就能做到这一点：将口语转化成易于理解的文本。

本文将逐步介绍Whisper是什么、它是如何工作的以及如何有效使用它。目前Whisper在AIModels.fyi排名第19位，这款功能强大的工具可以在各种应用中发挥巨大作用。本文还将探讨如何使用AIModels.fyi找到适合您独特需求的类似模型。

Whisper模型简介

由OpenAI开发的AI模型Whisper旨在将音频文件中的语音转换为文本。其应用非常广泛，从生成视频字幕到转录采访或会议文字，不一而足。Whisper的运行次数超过了200万人次，在同类产品中脱颖而出，是一种可靠且受欢迎的模型。

该模型接受音频输入并将其转录成书面文字，有效地弥合了口语和书面语之间的差距。此外，它支持大量语言，因而成为适合多语言项目的出色工具。关于该模型的更多详细信息可以在详情页面上找到。

了解Whisper模型的输入和输出

在深入研究Whisper模型的使用之前，了解模型的输入和输出很重要。

输入

Whisper的主要输入是一个音频文件，它对其进行处理并转录成文本。额外的输入参数允许您定制模型的操作方式：

model string：允许您从不同版本的Whisper模型中选择。
transcription string：允许您选择转录的格式，有纯文本、srt或vtt等选项。
translate boolean：使您能够将文本翻译成英语。
language string：允许您指定音频中所说的语言。
temperature number：该参数控制模型输出的“创造性”。
suppress_tokens string：您不希望模型输出的token id列表。

输出

模型输出含有已转录文本的对象，带有几个字段：

segments：转录内容分成几个片段。
srt_file & txt_file：转录结果可以以这些格式获得。
translation：如果启用了翻译选项，这里提供翻译后的文本。
transcription：这是最终的已转录文本。
detected_language：模型检测到的语言。

我们已了解了模型的输入和输出，不妨看看如何使用它来解决我们的转录问题！

使用Whisper模型将语音转录成文本

无论您是喜欢动手操作的程序员，还是偏爱交互性较强的演示方法，使用Whisper模型都简单又直接。

第1步：身份验证

首先，需要安装Replicate Node.js客户软件，并使用API令牌进行身份验证。这允许您以编程方式与Whisper模型进行交互。

npm install replicate

 export REPLICATE_API_TOKEN=your_api_token_here

第2步：运行模型

完成身份验证后，您可以用音频输入来运行模型：

import Replicate from "replicate";

const replicate = new Replicate({
 auth: process.env.REPLICATE_API_TOKEN,
});

const output = await replicate.run(
 "openai/whisper:91ee9c0c3df30478510ff8c8a3a545add1ad0259ad3a9f78fba57fbc05ee64f7",
 {
 input: {
 audio: "your_audio_here"
 }
 }

您还可以设置预测完成后所调用的Web钩子（webhook），这适用于异步处理：

const prediction = await replicate.predictions.create({
 version: "91ee9c0c3df30478510ff8c8a3a545add1ad0259ad3a9f78fba57fbc05ee64f7",
 input: {
 audio: "your_audio_here"
 },
 webhook: "https://example.com/your-webhook",
 webhook_events_filter: ["completed"]
});

更进一步：使用AIMmodels.fyi找到其他音频到文本模型

也许您想将Whisper与其他模型进行比较，或者探究同一问题领域的其他模型。怎样才能找到它们？AIModels.fyi正是满足这个用途的上佳资源，它有一个完全可搜索和可过滤的数据库，列有来自各种平台的AI模型。

第1步：访问AIModels.fyi

进入到AIModels.fyi，开始寻找类似的模型。

第2步：使用搜索栏

使用页面顶部的搜索栏，搜索具有特定关键字的模型，比如“audio-to-text”或“transcription”。这将显示相关模型列表。

第3步：筛选结果

使用搜索栏后，您可以通过使用页面左侧的过滤器进一步缩小结果范围。可以根据各种标准来筛选和搜索模型，包括如下：

平台：托管模型所用的平台，比如OpenAI和Hugging Face等。
创建者：模型背后的创建者或组织。
成本：使用模型的价格范围。
描述：该模型的功能和用途。

第4步：探究模型细节

一旦您找到了一个感兴趣的模型，点击它来查看更多的细节。您能够看到阐述全面的模型特点，包括其输入和输出、性能指标和用例。

结语

无论您是经验丰富的开发人员还是AI领域的新手，OpenAI的Whisper都是一个易于使用且功能强大的工具，可以将语音转换成文本。若结合AIModels.fyi之类的资源，现在比以往任何时候更容易找到适合您独特项目需求的完美模型。立即开始探究起来吧！

原文Converting Speech into Text with OpenAI's Whisper Model，作者：Mike Young

文章详情

使用OpenAI的Whisper模型将语音转换成文本

Whisper模型简介

了解Whisper模型的输入和输出

输入

输出

使用Whisper模型将语音转录成文本

第1步：身份验证

第2步：运行模型

更进一步：使用AIMmodels.fyi找到其他音频到文本模型

第1步：访问AIModels.fyi

第2步：使用搜索栏

第3步：筛选结果

第4步：探究模型细节

结语

软考中级精品资料免费领

相关文章

猜你喜欢

使用OpenAI的Whisper模型将语音转换成文本

使用OpenAI的Whisper 模型进行语音识别

OpenAI的Whisper模型进行语音识别使用详解

如何用Wav2Vec 2.0将语音转换成文本

如何使用Facebook的MusicGen将文本转换成音乐？