文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

Spring Boot与百度AI语音识别API集成实践

2024-11-29 22:13

关注


Spring Boot与百度AI语音识别API集成实践

百度AI语音识别API是目前国内领先的语音识别服务之一,具备以下几个显著特点:

  1. 高准确率:依托百度大规模的语音库和深度学习技术,能够提供高准确率的语音识别结果。
  2. 多场景应用:支持远场、近场、多语种等多种场景的语音识别应用,覆盖电话客服、语音助手、智能音箱等多种应用场景。
  3. 灵活接入:提供HTTP接口,方便开发者在各种语言和框架中集成。
  4. 实时性:支持实时语音识别,对于需要实时反馈的应用场景非常适用。

配置并对接百度AI语音识别API

要使用百度AI语音识别API,首先需要在百度AI开放平台上注册账号并创建应用,获取API Key和Secret Key。

获取API Key和Secret Key:

Spring Boot项目配置:

baidu.ai.appId=your_app_id
   baidu.ai.apiKey=your_api_key
   baidu.ai.secretKey=your_secret_key

配置百度AI客户端:

需要引入百度AI的SDK,创建一个配置类来初始化客户端。

引入依赖:
pom.xml文件中添加百度语音识别SDK依赖。


       com.baidu.aip
       java-sdk
       4.15.1
   

创建配置类:

import com.baidu.aip.speech.AipSpeech;
   import org.springframework.beans.factory.annotation.Value;
   import org.springframework.context.annotation.Bean;
   import org.springframework.context.annotation.Configuration;

   @Configuration
   public class BaiduAIConfig {

       @Value("${baidu.ai.appId}")
       private String appId;

       @Value("${baidu.ai.apiKey}")
       private String apiKey;

       @Value("${baidu.ai.secretKey}")
       private String secretKey;

       @Bean
       public AipSpeech aipSpeech() {
           AipSpeech client = new AipSpeech(appId, apiKey, secretKey);
           // 可选:设置连接超时参数
           client.setConnectionTimeoutInMillis(2000);
           client.setSocketTimeoutInMillis(60000);
           return client;
       }
   }

创建语音识别和转换功能的REST API

接下来,我们将创建一个REST API,用于接收语音并通过百度AI语音识别API进行转换。

创建Spring Boot主类:

import org.springframework.boot.SpringApplication;
   import org.springframework.boot.autoconfigure.SpringBootApplication;

   @SpringBootApplication
   public class SpeechRecognitionApplication {
       public static void main(String[] args) {
           SpringApplication.run(SpeechRecognitionApplication.class, args);
       }
   }

实现语音识别的REST API:

import com.baidu.aip.speech.AipSpeech;
   import com.baidu.aip.speech.AipSpeechResponse;
   import org.springframework.beans.factory.annotation.Autowired;
   import org.springframework.http.ResponseEntity;
   import org.springframework.http.MediaType;
   import org.springframework.web.bind.annotation.*;
   import org.springframework.web.multipart.MultipartFile;

   import java.io.IOException;
   import org.json.JSONObject;

   @RestController
   @RequestMapping("/api/speech")
   public class SpeechRecognitionController {

       @Autowired
       private AipSpeech aipSpeech;

       @PostMapping(value = "/recognize", consumes = MediaType.MULTIPART_FORM_DATA_VALUE)
       public ResponseEntity recognizeSpeech(@RequestParam("audio") MultipartFile audioFile) throws IOException {
           // 将音频文件转为字节数组
           byte[] audioData = audioFile.getBytes();
           
           // 执行语音识别
           JSONObject response = aipSpeech.asr(audioData, "pcm", 16000, null);
           
           // 检查返回结果中的错误码
           if (response.getInt("err_no") != 0) {
               return ResponseEntity.status(500).body(response.toString());
           }

           // 返回识别结果
           return ResponseEntity.ok(response.toString(4));
       }
   }

注意:

测试 REST API:

可以使用工具(如Postman)或者编写测试类来测试上述API。

import org.junit.jupiter.api.Test;
   import org.springframework.beans.factory.annotation.Autowired;
   import org.springframework.boot.test.context.SpringBootTest;
   import org.springframework.mock.web.MockMultipartFile;
   import org.springframework.test.web.servlet.MockMvc;
   import org.springframework.test.web.servlet.request.MockMvcRequestBuilders;

   import static org.springframework.test.web.servlet.result.MockMvcResultMatchers.status;

   @SpringBootTest
   class SpeechRecognitionApplicationTests {

       @Autowired
       private MockMvc mockMvc;

       @Test
       void testRecognizeSpeech() throws Exception {
           MockMultipartFile file = new MockMultipartFile(
                   "audio", "test.pcm", "audio/wav", new byte[]{});

           mockMvc.perform(MockMvcRequestBuilders.multipart("/api/speech/recognize")
                           .file(file))
                   .andExpect(status().isOk());
       }
   }

项目中的优化与调试方法

  1. 优化连接和请求
  1. 错误处理
@PostMapping(value = "/recognize", consumes = MediaType.MULTIPART_FORM_DATA_VALUE)
   public ResponseEntity recognizeSpeech(@RequestParam("audio") MultipartFile audioFile) {
       try {
           byte[] audioData = audioFile.getBytes();
           JSONObject response = aipSpeech.asr(audioData, "pcm", 16000, null);

           if (response.getInt("err_no") != 0) {
               return ResponseEntity.status(500).body("Error: " + response.optString("err_msg"));
           }

           return ResponseEntity.ok(response.toString(4));
       } catch (IOException e) {
           return ResponseEntity.status(500).body("File read error: " + e.getMessage());
       } catch (Exception e) {
           return ResponseEntity.status(500).body("Unexpected error: " + e.getMessage());
       }
   }


日志记录

使用日志记录API调用过程中的关键事件和错误信息,方便调试和定位问题。

import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.http.MediaType;
import org.springframework.http.ResponseEntity;
import org.springframework.web.bind.annotation.PostMapping;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RequestParam;
import org.springframework.web.bind.annotation.RestController;
import org.springframework.web.multipart.MultipartFile;
import org.json.JSONObject;
import com.baidu.aip.speech.AipSpeech;

import java.io.IOException;

@RestController
@RequestMapping("/api/speech")
public class SpeechRecognitionController {

    private static final Logger logger = LoggerFactory.getLogger(SpeechRecognitionController.class);

    @Autowired
    private AipSpeech aipSpeech;

    @PostMapping(value = "/recognize", consumes = MediaType.MULTIPART_FORM_DATA_VALUE)
    public ResponseEntity recognizeSpeech(@RequestParam("audio") MultipartFile audioFile) {
        try {
            byte[] audioData = audioFile.getBytes();
            logger.info("接收到的音频文件大小: {}", audioData.length);

            JSONObject response = aipSpeech.asr(audioData, "pcm", 16000, null);

            if (response.getInt("err_no") != 0) {
                logger.error("语音识别错误: {}", response.optString("err_msg"));
                return ResponseEntity.status(500).body("错误: " + response.optString("err_msg"));
            }

            logger.info("识别结果: {}", response.toString(4));
            return ResponseEntity.ok(response.toString(4));
        } catch (IOException e) {
            logger.error("文件读取错误", e);
            return ResponseEntity.status(500).body("文件读取错误: " + e.getMessage());
        } catch (Exception e) {
            logger.error("意外错误", e);
            return ResponseEntity.status(500).body("意外错误: " + e.getMessage());
        }
    }
}

总结

通过这篇文章,我们详细介绍了如何在Spring Boot 3.x项目中集成百度AI语音识别API。我们探讨了API的特点、配置方法、创建REST API以实现语音识别功能、以及优化和调试的最佳实践。希望这篇文章能够帮助你在实际项目中实现高效的语音识别功能。

来源:路条编程内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯