Spring Boot与百度AI语音识别API集成实践
百度AI语音识别API是目前国内领先的语音识别服务之一,具备以下几个显著特点:
- 高准确率:依托百度大规模的语音库和深度学习技术,能够提供高准确率的语音识别结果。
- 多场景应用:支持远场、近场、多语种等多种场景的语音识别应用,覆盖电话客服、语音助手、智能音箱等多种应用场景。
- 灵活接入:提供HTTP接口,方便开发者在各种语言和框架中集成。
- 实时性:支持实时语音识别,对于需要实时反馈的应用场景非常适用。
配置并对接百度AI语音识别API
要使用百度AI语音识别API,首先需要在百度AI开放平台上注册账号并创建应用,获取API Key和Secret Key。
获取API Key和Secret Key:
- 登录百度AI开放平台,创建一个语音识别应用,记录下分配的API Key和Secret Key。
Spring Boot项目配置:
- 在项目的
application.properties
文件中添加以下配置:
baidu.ai.appId=your_app_id
baidu.ai.apiKey=your_api_key
baidu.ai.secretKey=your_secret_key
配置百度AI客户端:
需要引入百度AI的SDK,创建一个配置类来初始化客户端。
引入依赖:
在pom.xml
文件中添加百度语音识别SDK依赖。
com.baidu.aip
java-sdk
4.15.1
创建配置类:
import com.baidu.aip.speech.AipSpeech;
import org.springframework.beans.factory.annotation.Value;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;
@Configuration
public class BaiduAIConfig {
@Value("${baidu.ai.appId}")
private String appId;
@Value("${baidu.ai.apiKey}")
private String apiKey;
@Value("${baidu.ai.secretKey}")
private String secretKey;
@Bean
public AipSpeech aipSpeech() {
AipSpeech client = new AipSpeech(appId, apiKey, secretKey);
// 可选:设置连接超时参数
client.setConnectionTimeoutInMillis(2000);
client.setSocketTimeoutInMillis(60000);
return client;
}
}
创建语音识别和转换功能的REST API
接下来,我们将创建一个REST API,用于接收语音并通过百度AI语音识别API进行转换。
创建Spring Boot主类:
import org.springframework.boot.SpringApplication;
import org.springframework.boot.autoconfigure.SpringBootApplication;
@SpringBootApplication
public class SpeechRecognitionApplication {
public static void main(String[] args) {
SpringApplication.run(SpeechRecognitionApplication.class, args);
}
}
实现语音识别的REST API:
import com.baidu.aip.speech.AipSpeech;
import com.baidu.aip.speech.AipSpeechResponse;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.http.ResponseEntity;
import org.springframework.http.MediaType;
import org.springframework.web.bind.annotation.*;
import org.springframework.web.multipart.MultipartFile;
import java.io.IOException;
import org.json.JSONObject;
@RestController
@RequestMapping("/api/speech")
public class SpeechRecognitionController {
@Autowired
private AipSpeech aipSpeech;
@PostMapping(value = "/recognize", consumes = MediaType.MULTIPART_FORM_DATA_VALUE)
public ResponseEntity recognizeSpeech(@RequestParam("audio") MultipartFile audioFile) throws IOException {
// 将音频文件转为字节数组
byte[] audioData = audioFile.getBytes();
// 执行语音识别
JSONObject response = aipSpeech.asr(audioData, "pcm", 16000, null);
// 检查返回结果中的错误码
if (response.getInt("err_no") != 0) {
return ResponseEntity.status(500).body(response.toString());
}
// 返回识别结果
return ResponseEntity.ok(response.toString(4));
}
}
注意:
audioFile.getBytes()
方法将上传的音频文件转换为字节数组。aipSpeech.asr
方法接受音频数据、音频格式(如pcm
)、采样率(如16000
)以及其他可选参数。response
对象中包含了识别结果,如果err_no
不为0,则表示识别出错。
测试 REST API:
可以使用工具(如Postman)或者编写测试类来测试上述API。
import org.junit.jupiter.api.Test;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.boot.test.context.SpringBootTest;
import org.springframework.mock.web.MockMultipartFile;
import org.springframework.test.web.servlet.MockMvc;
import org.springframework.test.web.servlet.request.MockMvcRequestBuilders;
import static org.springframework.test.web.servlet.result.MockMvcResultMatchers.status;
@SpringBootTest
class SpeechRecognitionApplicationTests {
@Autowired
private MockMvc mockMvc;
@Test
void testRecognizeSpeech() throws Exception {
MockMultipartFile file = new MockMultipartFile(
"audio", "test.pcm", "audio/wav", new byte[]{});
mockMvc.perform(MockMvcRequestBuilders.multipart("/api/speech/recognize")
.file(file))
.andExpect(status().isOk());
}
}
项目中的优化与调试方法
- 优化连接和请求:
- 适当设置连接超时和读取超时,以提高请求的响应速度和稳定性。
- 错误处理:
增加错误处理逻辑,例如网络错误、API调用错误,并提供详细的错误信息。
@PostMapping(value = "/recognize", consumes = MediaType.MULTIPART_FORM_DATA_VALUE)
public ResponseEntity recognizeSpeech(@RequestParam("audio") MultipartFile audioFile) {
try {
byte[] audioData = audioFile.getBytes();
JSONObject response = aipSpeech.asr(audioData, "pcm", 16000, null);
if (response.getInt("err_no") != 0) {
return ResponseEntity.status(500).body("Error: " + response.optString("err_msg"));
}
return ResponseEntity.ok(response.toString(4));
} catch (IOException e) {
return ResponseEntity.status(500).body("File read error: " + e.getMessage());
} catch (Exception e) {
return ResponseEntity.status(500).body("Unexpected error: " + e.getMessage());
}
}
日志记录
使用日志记录API调用过程中的关键事件和错误信息,方便调试和定位问题。
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.http.MediaType;
import org.springframework.http.ResponseEntity;
import org.springframework.web.bind.annotation.PostMapping;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RequestParam;
import org.springframework.web.bind.annotation.RestController;
import org.springframework.web.multipart.MultipartFile;
import org.json.JSONObject;
import com.baidu.aip.speech.AipSpeech;
import java.io.IOException;
@RestController
@RequestMapping("/api/speech")
public class SpeechRecognitionController {
private static final Logger logger = LoggerFactory.getLogger(SpeechRecognitionController.class);
@Autowired
private AipSpeech aipSpeech;
@PostMapping(value = "/recognize", consumes = MediaType.MULTIPART_FORM_DATA_VALUE)
public ResponseEntity recognizeSpeech(@RequestParam("audio") MultipartFile audioFile) {
try {
byte[] audioData = audioFile.getBytes();
logger.info("接收到的音频文件大小: {}", audioData.length);
JSONObject response = aipSpeech.asr(audioData, "pcm", 16000, null);
if (response.getInt("err_no") != 0) {
logger.error("语音识别错误: {}", response.optString("err_msg"));
return ResponseEntity.status(500).body("错误: " + response.optString("err_msg"));
}
logger.info("识别结果: {}", response.toString(4));
return ResponseEntity.ok(response.toString(4));
} catch (IOException e) {
logger.error("文件读取错误", e);
return ResponseEntity.status(500).body("文件读取错误: " + e.getMessage());
} catch (Exception e) {
logger.error("意外错误", e);
return ResponseEntity.status(500).body("意外错误: " + e.getMessage());
}
}
}
总结
通过这篇文章,我们详细介绍了如何在Spring Boot 3.x项目中集成百度AI语音识别API。我们探讨了API的特点、配置方法、创建REST API以实现语音识别功能、以及优化和调试的最佳实践。希望这篇文章能够帮助你在实际项目中实现高效的语音识别功能。