CATALOG

30W云TTS语音音柱的HTTP接口非常简单——一个POST请求就能让设备“开口说话”。下面从接入架构、接口签名、命令格式到代码实践,完整说明如何把它集成到你的项目中。

解决方案:将30W云TTS语音音柱接入自有项目

1. 概述

芯步的30W云TTS语音音柱(型号:UNI-YY-YZ-30W)是一款支持Wi-Fi联网的智能语音播报设备。它最大的特点是提供了全开放的HTTP API接口,开发者无需复杂的SDK,只需通过标准的HTTP POST请求,即可实现文本转语音(TTS)在音柱上实时播报

适用场景:

  • 工业/商业报警: 车间设备故障、加油站违规操作实时语音提示。

  • 订单/工单提醒: 餐饮系统呼叫取餐、ERP系统审批通过通知。

  • 停车场/门禁系统: 车牌识别结果播报、欢迎语播报。

2. 核心技术架构

要完成接入,你需要具备以下环境,并理解数据流向:

  • 硬件设备: 30W云TTS语音音柱(需连接至2.4G Wi-Fi网络)。

  • 云端/服务器: 你的业务系统(可以是云服务器、本地PC或树莓派等)。

  • 接口协议: HTTP/HTTPS。

数据流向图(文字描述):

  1. 业务触发: 业务系统(如数据库产生新订单) -> 2. 组装指令: 系统生成JSON格式的控制指令 -> 3. API调用: 向芯步API网关发送POST请求 -> 4. 设备接收: 音柱通过Wi-Fi轮询或长连接接收命令 -> 5. 语音播报: 音柱芯片级合成语音并播放。

3. 详细接入步骤

3.1 步骤一:设备配网与ID获取
  • 将30W云 TTS 语音音柱通电。

  • 使用“芯步”官方App或小程序,为设备配置Wi-Fi密码。

  • 在后台管理界面找到 设备ID(Device ID),这是一个数字串(例如:820720),用于在接口调用时精确指定该音柱

3.2 步骤二:获取API凭证

在芯步开放平台控制台(Console)中:

  • AppID: 你的应用唯一标识。

  • AppSecret: 应用密钥,用于签名计算,请勿泄露

3.3 步骤三:接口签名计算(核心安全机制)

为了避免接口被恶意调用,所有请求需携带动态签名。签名算法如下(以伪代码为例)

  1. 准备参数:AppSecret(密码),ts(当前Unix时间戳,秒级)。

  2. 计算第一层MD5:str1 = md5(AppSecret)

  3. 拼接时间戳:str2 = str1 + ts

  4. 计算最终签名:sign = md5(str2)

注:最终请求URL结构为:https://api.thingboot.com/{AppId}/device/control/?sign={sign}&ts={ts}

3.4 步骤四:TTS播报指令下发

你可以使用任何支持HTTP的语言调用接口。播报文本需要支持GBK编码格式。

接口示例(HTTP Request):

  • 参数解析:820720 即为你的设备ID。

  • 命令解析:play:gbk:16代表播报文本,后面跟具体内容

  • 响应速度: 通常在80-200ms内音柱即可发声

4. 实战代码集成片段

以下展示在三种常见环境中的集成逻辑。

4.1 Java 实现(适合后端SpringBoot)

4.2 Python 实现(适合脚本或Web应用)

4.3 前端/浏览器 JavaScript 实现(注意跨域与安全)安全警告:不在前端直接暴露 AppSecret,后端封装一个接口供前端调用。

5. 进阶功能配置

除了基础播报,30W音柱支持通过修改order字段来实现精细控制

功能调用参数示例 (Order JSON)说明
音量调节{"volume":"7"}范围 0-9,数字越大音量越大
切换音色{"voice":"1"}0=女声(默认),1=男声
语速调节{"speed":"5"}范围 0-9
插入提示音{"play:gbk:16":"[message_1]请取餐"}[message_1][message_5]为内置提示音效
停止播报{"stop":"1"}强制停止当前所有播放任务
播放铃声{"ring":"3"}播放内置的特定铃声

6. 部署和需要注意的点

  1. 网络环境: 音柱只支持 2.4G Wi-Fi 频段。如果部署在工厂或户外,确保信号强度

  2. 私有化部署: 如果数据安全要求比较高(纯内网环境),该音柱支持私有化部署,你可以将API指向自建的服务器,无需经过公网

  3. 文本编码: 命令中使用 play:gbk:16,说明文本需要 GBK 编码支持。在编程时(如Node.js或某些旧系统),需注意字符编码转换,避免中文乱码。

  4. 并发处理: 同一设备如果短时间内收到多条指令,设备会自动排队播放,无需额外编写队列逻辑。

通过以上步骤,你可以在30分钟内完成从配网到代码调用的全流程,将物理世界的“听觉”能力赋予你的数字化项目。