CATALOG

一、场景需求与概述

在自助服务终端(如政务自助机、医院挂号机、银行柜员机、零售点餐机等)的应用场景中,用户往往需要实时、清晰的操作指引。传统屏幕提示存在“注视依赖”问题,对于视障人群、老年人或操作复杂场景,纯视觉交互效率较低。引入远程喊话音柱,可在用户触碰屏幕的瞬间触发语音反馈,实现“视听协同”的引导体验。

痛点

  • 嘈杂环境下屏幕提示易被忽略;

  • 复杂操作步骤缺乏语音分步引导;

  • 紧急情况(如设备故障、求助)无法及时语音告警;

  • 运维人员难以远程向现场广播通知。

方案目标将芯步20W智能语音音柱通过HTTP接口快速集成至自助终端控制系统,实现动态文本转语音(TTS)播报远程喊话音量实时调节多设备分组广播

二、核心产品选型:20W远程喊话音柱

针对自助服务终端通常部署于半户外或室内大厅(存在一定环境噪音),选用芯步 UNI-YY-YZ-10W 或更高功率的 PRO-60W(根据空间大小调整)。若特指20W功率等级,该系列产品主要技术特征如下:

项目参数规格
设备型号智能语音音柱(无线WiFi/有线网口版)
输出功率10W / 20W / 60W(按需选择,20W覆盖50-100㎡大厅)
网络连接2.4G WiFi 或 10Mbps 以太网(RJ45)
控制接口标准HTTP协议(RESTful API),无网关直连
核心功能实时TTS播报、支持多音字/数字读法、远程音量/语速/音色调节、内置提示音
集成方式任意支持HTTP请求的编程语言(Java/Python/PHP/JS/NodeRED等)
安全机制MD5动态签名验证、支持私有化部署

选型理由:该设备不依赖专用网关,直接接入局域网或互联网,与自助终端(通常为Android/Windows工控机)同网络即可控制,极大降低硬件耦合度

三、对接设计

在自助终端场景下,采用直连模式本地服务器代理模式,确保播报低延迟。

1. 网络拓扑架构

graph LR
    A[自助终端
Android/Windows] -->|HTTP POST| B[局域网路由器] B -->|API指令| C[芯步音柱
IP: 192.168.1.xxx] D[远程运维中心/云端] -.->|可选4G/WAN| B C -->|TTS播报| E[用户/大厅] subgraph 本地部署 A B C end

2. 接口调用流程

芯步开放接口采用极简的设备ID+签名鉴权模式,无需复杂的OAuth握手。

  1. 设备上电:音柱连接WiFi,在芯步控制台获取唯一Device ID

  2. 签名生成:终端后台计算 Sign = MD5( MD5(AppSecret) + Timestamp )

  3. 指令下发:HTTP POST请求携带Device IDOrder命令(如播报文本)。

  4. 语音输出:音柱接收指令后实时合成语音并播放,延迟约100-200ms。

四、详细对接步骤与代码实现

步骤1:准备工作与参数获取

登录芯步开放平台(ThingBoot Open),完成以下配置

  • 创建项目:获取 AppIDAppSecret

  • 绑定设备:将音柱的MAC地址或序列号添加至项目,获得 Device ID(如 1878)。

  • 网络确认:确保自助终端(上位机)与音柱处于同一局域网,或音柱可访问外网(若使用云端API)。

步骤2:鉴权签名算法

所有HTTP接口需携带动态签名以防篡改。签名公式如下

注意:时间戳ts单位为秒,请求时需传递明文ts供服务器端校验(通常允许5分钟误差)。

步骤3:核心播报指令下发

自助终端在用户触发特定操作(如点击按钮、扫码成功、故障报错)时,调用以下API。

请求地址POST https://api.thingboot.com/{AppID}/device/control/?sign={sign}&ts={ts}

请求头Content-Type: application/json

请求体示例

参数说明

  • "play:gbk:16":这是TTS播报命令,其中16代表音量等级(范围0-100,16为中等响度),gbk指文本编码。

  • 文本内容:支持中文、数字自动优化(如将“100”读作“一百”而非“一零零”)。

步骤4:动态控制音量和音色(提升体验)

在自助终端设置界面,可提供“音量调节”滑块,实时调用音量指令:

同时支持修改音色(男/女)、语速(speed)等参数,以适应不同时段(如夜间降低语速和音量)

步骤5:Java/Python 完整对接代码片段

Python实现(适用于嵌入式工控机)

Java实现:

五、高级场景集成:远程喊话与联动

1. 远程实时喊话(人工介入)

若运维人员需要远程安抚用户(如“请右边机器排队人少”):

  • 通过管理后台麦克风录制音频(或输入文本) → 调用TTS接口推送到指定音柱。

  • 支持打断模式:连续发送新的play指令即可覆盖当前播报,实现紧急喊话抢占。

2. 与传感器联动

若现场安装有人体传感器(芯步同生态产品):

  • 传感器探测到用户接近 → 触发服务器逻辑 → 音柱自动播报“欢迎光临,请刷脸进入”

  • 实现“人来即播”的无人值守引导。

3. 本地化高可用方案(私有化部署)

对于医院、政务大厅等要求高稳定性的场景:

  • 音柱支持纯局域网工作,无需连外网

  • 在本地服务器部署芯步私有化消息中间件,终端直接调用内网IP,规避公网抖动。

六、性能优化与故障排查

  1. 延迟优化

    • 局域网内实测响应时间约80-120ms

    • 若需极速响应(如连续菜单选择),保持TCP长连接(设备支持心跳保活),避免每次播报都重新DNS解析。

  2. 防冲突与排队

    • 若高频触发播报(如用户飞速点击屏幕),终端侧需做防抖处理(如间隔<500ms的请求合并或丢弃),防止音柱缓冲区溢出。

  3. 典型报错解决

    • 签名错误:检查时间戳是否与服务器时间相差过大,以及MD5字符串拼接顺序(先MD5秘钥再拼ts,整体再MD5)。

    • 设备离线:音柱支持5组WiFi备份,检查电源和信号强度;可通过ping设备IP确认连通性

七、总结

通过对接芯步20W智能语音音柱,自助服务终端可在1小时内完成从硬件安装到代码联调。该方案具有以下突出优势:

  • 极简集成:仅需HTTP请求,无论终端运行的是C#、Java还是Node.js,均能快速适配。

  • 交互升维:将枯燥的“看屏幕”变为“听引导”,降低用户学习成本,提升业务办理效率。

  • 柔性扩展:未来可无缝接入大模型(LLM),实现自然语言对话式引导(如“我要办护照”触发特定流程),仅需修改调用文本内容,无需更换硬件

实施:优先在取号阶段结果反馈环节(如吐卡、打印凭条)植入语音,这两个节点是用户高频求助点,语音提示效果最为显著。