CATALOG

一、为啥选它?—— 音柱在工厂场景的优势

先聊聊背景。很多工厂到现在还在用传统的大喇叭或者杂牌扩音器,播报全靠人工喊或者播放提前录好的MP3。问题是:生产线情况瞬息万变,哪能提前把所有内容都录好?

芯步这款30W智慧语音音柱,最核心的卖点就是——直接给它发文本,它当场就能合成语音播出来(也就是所谓的TTS,芯片级合成,不是那种软绵绵的网络合成音)。而且它声音够大(30W功率,覆盖一个车间完全没问题),防尘防水(工厂环境你们懂的),最关键的是它开放HTTP接口,对接起来不费劲

简单说:你只需要会发HTTP请求,就能让它“开口说话”。

二、对接前需要准备的几样东西

实际操作前,先把这几样东西备齐:

  1. 硬件设备:30W智能语音音柱(有线网版或WiFi版都行,工厂用有线版,信号稳)

  2. 电源和网络:给它通上电,插上网线(或配好WiFi),确保它能上网

  3. 开发者账号:在芯步官网注册一个账号,登录控制台

  4. AppID和AppSecret:在控制台的“开发设置”里能找到,相当于你的“钥匙”

  5. 设备ID:在控制台绑定音柱后,会生成一个设备ID,发命令时要告诉平台“发给哪个设备”

准备齐了,咱们开始干活。

三、核心步骤:怎么让音柱“开口”

3.1 接口地址长什么样?

芯步的接口设计得还算简单,基本格式是这样的:

这里需要解释一下三个动态的东西:

  • AppId:就是上面提到的应用ID

  • ts:当前的时间戳(秒数),比如 1747212640

  • sign:签名,用来验证你的身份,防止别人乱发命令

3.2 签名怎么算?(重点)

签名算法稍微绕一点,但照着做就行:

sign = md5( md5(AppSecret) + ts )

用人话说:

  1. 先把你的 AppSecret 做一次 MD5 加密

  2. 把结果和当前时间戳(ts)拼在一起

  3. 对拼出来的字符串再做一次 MD5

举个例子(伪代码):

实际写代码时,大部分语言都有现成的MD5函数,直接调就行。注意时间戳要用当前时间(秒级),而且前后时间差不能太大,否则会过期

3.3 下发播报命令的请求体

签名搞定后,就可以发命令了。请求体是JSON格式,长这样:

  • device:你的音柱设备ID

  • order:这里面 "play:gbk:16" 是固定写法,意思是“用GBK编码播报后面的文本”

3.4 完整的请求示例(拿Python举个栗子)

怕大家看着晕,直接上一个完整的Python代码示例:

运行这段代码,只要网络通、参数对,音柱就会立刻播报你写的文本。从发出到出声,正常情况80-120毫秒,几乎感觉不到延迟

3.5 其他常用命令(不只是播报)

光能播报还不够,有时候需要调整音量、换声音、甚至让它闭嘴。芯步的接口还支持这些命令

功能命令示例说明
调音量{"volume": 7}0-9级,数字越大越响
换音色{"voice": 1}0=女声(默认),1=男声
调语速{"speed": 5}0-9级,5是正常
播内置铃声{"ring": 1}1-5,内置5种铃声
停止播报{"stop": 1}立即闭嘴,适合紧急打断
重复播放{"repeat": 3}重复播3次

这些命令用法和播报一样