如何在前台语音通知中对接智能硬件以实现语音播放暂停控制_解决方案

CATALOG

芯步的智能语音设备原生支持 stop 命令，但“暂停后从断点续播”需要结合业务逻辑实现。以下方案基于其标准 HTTP 接口，提供前台语音通知的完整控制架构。

芯步的智能语音设备（如智能语音喇叭2、音柱等）官方提供的命令集中包含 stop（停止播放）命令，但通常不直接提供pause 和 resume 命令。

解决方案的核心思路是：

在开始开发前，请确保具备以下信息：

签名算法 (重要)所有请求需携带 sign 和 ts 参数：

具体实现分为三个核心环节：后台逻辑架构、暂停功能实现、恢复功能实现。

你需要在前台系统中维护一个“语音会话状态机”。推荐使用Redis缓存或内存表来处理状态。

数据结构设计
- Key：device_{DeviceID}_status
- Fields：
  - is_playing：是否正在播放。
  - current_text：当前正在播放的完整文本。
  - current_offset：由于TTS流式推送难以计算精准字符进度，通常不保存offset（仅保存全量文本，恢复时重头播）。如果业务逻辑必须是“接着读”，将长文本拆分为短句队列。
  - queue_list：待播放的语音队列。

当前台用户点击“暂停”按钮时，你需要向设备下发停止指令，并更新后台状态。

API 调用
// 请求体 { "device": "820720", // 你的设备ID "order": { "stop": "0" // 0 = 停止当前播放；1 = 全部停止 } }
注：推荐使用 "stop":"0"，仅打断当前句，保留队列。
后台处理逻辑（伪代码）
# 1. 调用接口下发停止命令 response = call_yoyo_api(device_id, {"stop": "0"}) # 2. 更新Redis状态，标记为已暂停，保留原有文本 redis.hset(f"device_{device_id}", mapping={ "is_playing": "false", "paused_text": current_playing_text, # 保存被打断的文本 "status": "paused" }) # 3. 返回前端暂停成功 return {"code": 200, "message": "语音已暂停"}

当前台用户点击“恢复”时，后台从缓存中取出被打断的文本，重新下发播报命令。

优化策略为了避免恢复时的生硬感，可以在恢复的文本前加一个极短的“提示音”或自定义前缀（可选）。示例： 原文本为“订单号1234，金额50元”，恢复时下发：“[message_1] 订单号1234，金额50元”。
API调用
{ "device": "820720", "order": { "play:gbk:16": "续播内容:订单号1234，金额50元" // 重新TTS合成并播报 } }

为了更好的用户体验，恢复播放时附带音量设置，确保用户不会漏听。

组合命令：芯步设备支持链式或组合下发，可以先调音量再播报。
// 先设置音量为最大（9），再播报 { "order": { "volume": "9", "play:gbk:16": "重要提醒:您的订单即将超时" } }
注：接口文档显示，同一请求中通常只执行一个动作或特定组合。稳妥做法是分两次调用接口，或查阅最新文档确认是否支持JSON内多命令并行。

为了使用户能够自如地控制语音，前台界面设计可参考以下：

悬浮控制栏：当有语音正在播放或暂停时，在页面底部常驻控制条。显示当前播放内容摘要，提供【暂停】、【恢复】、【停止】三个按钮。
事件上报机制利用设备的上行消息功能。当用户物理按击设备上的按钮（如短按静音/恢复）时，设备会向配置的URL推送事件。场景应用：如果在办公室吵杂，用户直接按了喇叭上的“静音键”，该事件会自动上报给你的服务器。此时你的前端界面应该监听到WebSocket消息，同步将UI状态切换为“暂停”，实现“软硬一体”的状态同步。
等待反馈：由于HTTP请求和网络传输存在约80-300ms的延迟，点击按钮后应立刻更新UI为“加载中”状态，防止用户重复点击导致多个 stop 或 play 命令堆积。

在实施过程中，可能会遇到以下情况，提前规划处理逻辑：

断网重连
- 问题：设备离线期间，下发的播报指令会失败。
- 方案：后台需维护一个“离线指令队列”。当设备重新上线（设备上线事件会通过HTTP推送给你的业务服务器）时，自动触发队列补发。
长文本截断
- 问题：TTS播报长文本（如大段合同条款）耗时较长。
- 方案：采用“逐句队列”模式。你的后台先将长文本按句号分割。
- 逻辑：设备播报第一句 -> 前端点击暂停 -> stop 命令 -> 保存剩余未播的句子列表 -> 恢复时播放列表第一条。