怎么接入40W 壁挂远程 TTS 语音音箱以实现语音播放进度控制_解决方案

CATALOG

芯步40W壁挂音箱的开放接口基于HTTP协议，通过简单的文本推送即可驱动TTS语音播报。要实现播放进度控制，核心思路是借助“停止”指令打断当前播报，再配合新的文本下发来模拟进度跳转。以下方案涵盖接口签名、状态管理及多语言代码示例。

解决方案：基于芯步开放接口实现40W壁挂音箱的语音播放进度控制

1. 概述与核心思路

芯步的40W壁挂远程TTS语音音箱（以Pro40W型号为例）提供了一套完整的HTTP API接口。不同于传统的流式音频控制，该设备采用“文本驱动”模式：用户将文本推送给设备，设备端直接合成语音（芯片级TTS）并播放。

播放进度控制的实现逻辑：由于设备本身不支持拖动进度条，要实现“跳转播放”或“定点播放”，必须结合“停止”与“重播”机制：

打断： 发送停止指令，立即中断当前正在播放的长文本。
定位： 在业务层（你的服务器或客户端）维护文本内容的索引（如第几段、第几个句子）。
续播： 从断点处的剩余文本内容重新合成新的TTS指令下发。

2. 环境准备与鉴权机制

在开始编码前，需要准备以下三个关键参数（均在芯步控制台获取）：

AppId：应用唯一标识。
AppSecret：开发者密钥（用于加密）。
Device ID：目标40W音箱的设备编号。

签名算法（Authentication）：所有HTTP请求均需携带签名以防止篡改。算法规则如下

最终请求URL结构：https://api.thingboot.com/{AppId}/device/control/?sign={sign}&ts={ts}

3. 播放进度控制的 API 调用实战

为实现逻辑控制，主要依赖两个核心指令：play (播报) 和 stop (停止)。

3.1 基础播报与参数设置

在播放长文本前，先预设音量和语速，保证体验一致。

接口地址：同上
请求方法：POST (Content-Type: application/json)
请求Body示例

3.2 进度控制核心逻辑（暂停/跳转）

假设用户点击“暂停”或“跳转至第30秒”，开发者无法直接读取设备播放进度，需通过业务逻辑模拟实现。

步骤一：中断当前播放下发stop指令，强制音箱停止播音。

步骤二：计算续播点并重新下发在服务器端记录每次下发的文本。当收到“跳转”请求时，根据目标位置截取字符串，重新调用播报接口。

场景示例
- 原文本：“你好，欢迎光临芯步体验店。我们的新产品支持远程语音控制。”
- 用户点击跳转到“新产品”处。
- 续播文本：“我们的新产品支持远程语音控制。”
下发指令

3.3 状态同步机制

由于音箱是“发后即忘”（Fire-and-Forget）模式，需建立“虚拟队列”来管理播放状态：

ID分配：每次下发play指令时，在业务层生成唯一的TaskID。
时间预估：根据文本字数估算播放时长（中文TTS通常约为每秒3-4个字）。
锁机制：下发指令后锁定设备；收到预估时长定时器结束信号或新的stop指令后解锁。

4. 代码实现示例

以下提供 Python 和 Node.js 的封装示例，包含签名生成和带进度控制的逻辑类。

Python 实现 (Flask 风格或脚本)

import hashlib
import time
import requests
import json

class YoyoSpeaker:
    def __init__(self, app_id, app_secret, device_id):
        self.app_id = app_id
        self.app_secret = app_secret
        self.device_id = device_id
        self.base_url = f"https://api.thingboot.com/{app_id}/device/control/"

def _generate_sign(self):
        ts = int(time.time())
        # md5(md5(AppSecret) + ts)
        step1 = hashlib.md5(self.app_secret.encode()).hexdigest()
        sign_str = step1 + str(ts)
        sign = hashlib.md5(sign_str.encode()).hexdigest()
        return ts, sign

def send_command(self, order_dict):
        ts, sign = self._generate_sign()
        url = f"{self.base_url}?sign={sign}&ts={ts}"
        payload = {
            "device": self.device_id,
            "order": order_dict
        }
        response = requests.post(url, json=payload)
        return response.json()

def play_text(self, text, volume=7):
        # 完整播报
        return self.send_command({"volume": str(volume), "play:gbk:16": text})

def stop(self):
        # 停止播放
        return self.send_command({"stop": "0"})

def resume_from_position(self, full_text, start_index):
        # 进度控制:截取文本并播报
        if start_index < len(full_text):
            sub_text = full_text[start_index:]
            # 先停止，再播放剩余部分，避免声音叠加
            self.stop()
            time.sleep(0.1) # 极短暂延迟，确保停止指令生效
            return self.play_text(sub_text)
        return None

# 使用示例
speaker = YoyoSpeaker("YourAppId", "YourAppSecret", "820720") # 设备ID参考[citation:2]
# 模拟长文本播放
long_article = "第一段内容...第二段内容...第三段内容..."
speaker.play_text(long_article)

# 模拟用户点击"跳转到第二段"
# 假设通过字符串查找索引位置
resume_point = long_article.find("第二段内容")
speaker.resume_from_position(long_article, resume_point)

Node.js 实现 (Express 风格)

const crypto = require('crypto');
const axios = require('axios');

class YoyoSpeaker {
    constructor(appId, appSecret, deviceId) {
        this.appId = appId;
        this.appSecret = appSecret;
        this.deviceId = deviceId;
        this.baseURL = `https://api.thingboot.com/${appId}/device/control/`;
    }

_generateSign() {
        const ts = Math.floor(Date.now() / 1000);
        const step1 = crypto.createHash('md5').update(this.appSecret).digest('hex');
        const signStr = step1 + ts;
        const sign = crypto.createHash('md5').update(signStr).digest('hex');
        return { ts, sign };
    }

async sendCommand(order) {
        const { ts, sign } = this._generateSign();
        const url = `${this.baseURL}?sign=${sign}&ts=${ts}`;
        const payload = {
            device: this.deviceId,
            order: order
        };
        const response = await axios.post(url, payload);
        return response.data;
    }

async seekTo(text, startChar) {
        // 实现跳转:先停后播
        await this.sendCommand({ stop: "0" });
        const subText = text.substring(startChar);
        if (subText) {
            return await this.sendCommand({ "play:gbk:16": subText });
        }
    }
}

module.exports = YoyoSpeaker;

5. 最佳实践和需要注意的点

关于并发：该音箱属于单声道播放设备，不支持同时播放两个不同的文本。如果需要“插播”高优先级警报，请先发送stop指令，再发送新警报内容。
网络延迟：实测接口响应约为80-120ms。在执行“暂停 -> 跳转”流程时，虽然脚本中连续调用了两个API，但由于网络延迟，前端UI做短暂Loading防抖，防止最后一条指令被意外覆盖。
GBK编码：在order的Key中使用了play:gbk:16，这表明设备内核支持GBK字符集，中文兼容性良好，无需进行额外的Unicode转码。
私有化部署：如果对网络延迟有极致要求或处于内网环境，该系列设备支持私有化部署，你可搭建本地消息服务器，直接将API请求指向局域网内的设备IP。