怎样在共享茶室前台语音接待场景中接入智能硬件以实现多音数字读法设置_解决方案

怎样在共享茶室前台语音接待场景中接入智能硬件以实现多音数字读法设置

2022-07-22 发布浏览：981 次

语音播报器前台共享茶室设置多音数字读法语音接待

联系工程师联系工程师

CATALOG

共享茶室的语音接待场景中，数字读法（如包间号“205”、时长“2小时”、金额“50元”）直接影响用户体验——读错数字会让顾客感到不专业。芯步的TTS版语音控制器配合开放API，可以通过SSML标签精确控制数字的读法。以下是具体实现方案。

一、整体技术架构

要实现前台语音接待场景下的多音数字智能读法，我们需要将前端交互、业务逻辑与物联网硬件三者打通。

硬件层：采用芯步 智能包间控制器（TTS版本） 作为核心输出设备，部署于茶室前台或走廊。同时，配合人体存在传感器（用于感应是否有客人走近前台，触发自动问候）。
平台层：芯步开放平台。负责接收业务系统的指令，并向硬件下发TTS语音播报命令。
业务层：共享茶室SaaS系统（小程序/管理后台）。负责处理订单状态变更、用户扫码请求，并调用API向指定设备发送包含 SSML（语音合成标记语言） 标签的文本。

核心逻辑：当用户在前台扫码或通过传感器感应到有人时，业务系统根据当前场景（如剩余时间提醒、欢迎语）动态生成文本，通过HTTP请求调用芯步接口，TTS控制器将文本转为语音。

二、关键难点攻克：多音数字的智能读法设置

在共享茶室场景中，数字主要出现在房间号（如205房）、时长金额（如2小时、50元）、时间时刻（如14:00）中。

1. 方案核心原则不要直接发送原始中文数字（如 205 或 两百零五），而是利用芯步接口支持的 TTS引擎SSML协议 进行标记。芯步硬件兼容通用的SSML标准，以下为通用适配方案。

2. 场景化数字读法解决方案表

针对共享茶室常见痛点，我们制定以下文本转换规则（由业务后端在发送前执行）：

场景类别	场景示例	用户预期读法	后端处理逻辑（文本转换）	SSML代码方案
号码/编码	包间号：`205`	二零五（而非“二百零五”）	识别为编码，强制拆分数字	`205号房已准备就绪。` 或直接传 `二零五`
比分/数量	剩余时长：`120` 分钟	一百二十	识别为数值（量词前）	`剩余时长120分钟。`
金额	消费金额：`50` 元	五十	金额专用读法	`本次消费50元。`
时间时分	结束时间：`14：30`	十四点三十分	时间格式解析	`您的订单将于14：30结束。`
组合场景	“请A01号客人上座”	A 零一（字母+数字组合）	英文字母自然读法 + 数字位读法	`请A01号客人上座。`

三、具体实施步骤与代码逻辑

第一步：硬件部署与配置

设备选型：选用 UNI-KZQ-BJ-MINI-TTS 型号的控制器。
网络配置：将设备通过WiFi接入互联网，并在芯步控制台（ThingBoot Console）获取唯一的 Device ID 和 AppId。
音频连接：将控制器的音频输出口连接到前台的音箱（3.5mm AUX或蓝牙）。

第二步：接口对接准备

芯步提供标准的HTTP API接口，您的服务器需要准备：

AppId：应用ID
Sign：动态签名（用于鉴权）
Ts：时间戳

下发命令的请求地址示例

http(s)://api.thingboot.com/{AppId}/device/control/?sign={sign}&ts={ts}

[citation：1]

第三步：核心代码实现（Python示例 / 伪代码）

业务系统在用户扫码开门或订单即将到期时，调用以下逻辑构建Payload并发送给芯步硬件。

import requests
import json
import time
import hashlib

# 1. 配置参数
device_id = "820720" # 芯步设备的ID
app_id = "YOUR_APP_ID"
api_secret = "YOUR_API_SECRET" # 用于生成签名

# 2. 核心函数:生成多音智能读法的TTS文本
def generate_smart_tts_text(scene_type, raw_data):
    # 针对茶室前台场景的智能转换逻辑
    if scene_type == "ROOM_NUMBER": # 如205 -> 二零五
        return f"<speak>欢迎光临，<say-as interpret-as="number">{raw_data}</say-as>号包厢已为您准备好。</speak>"
    elif scene_type == "TIME_LEFT": # 如 90 -> 九十分钟
        return f"<speak>您当前剩余<say-as interpret-as="number">{raw_data}</say-as>分钟，请及时续费。</speak>"
    elif scene_type == "RECHARGE_AMOUNT":
        return f"<speak>续费<say-as interpret-as="number">{raw_data}</say-as>元成功，祝您品茗愉快。</speak>"
    else:
        # 普通文本回退
        return f"<speak>{raw_data}</speak>"

# 3. 构造芯步的控制指令
def send_voice_command(scene, content):
    # 生成TTS播报文本
    tts_message = generate_smart_tts_text(scene, content)
    
    # 构造芯步要求的Json数据包
    # 根据文档，TTS功能通常通过特定命令字实现，假设命令字段为"tts"
    payload = {
        "device": device_id，
        "order": {
            "tts": tts_message   # 此处将SSML文本赋值给硬件的播报属性
        }
    }
    
    # 鉴权与请求（简化）
    ts = int(time.time())
    sign_str = f"{app_id}{api_secret}{ts}" # 实际签名算法参考官方文档
    sign = hashlib.md5(sign_str.encode()).hexdigest()
    
    url = f"http://api.thingboot.com/{app_id}/device/control/？sign={sign}&ts={ts}"
    
    response = requests.post(url, data=json.dumps(payload))
    print(f"硬件响应: {response.text}")
    return response

# 4. 场景调用示例:用户刚刚扫码打开205包厢的门
if __name__ == "__main__":
    # 场景:门锁打开后，前台喇叭播报"二零五号房已开锁"
    send_voice_command("ROOM_NUMBER"， "205")
    # 场景:用户充值100元
    send_voice_command("RECHARGE_AMOUNT"， "100")

第四步：设置主动迎接联动

利用芯步的 人体存在传感器。

联动逻辑：当传感器检测到有人在设备前停留（如在前台站立3秒），传感器通过HTTP推送（radar_enable状态变更）到您的服务器。
服务器动作：接收消息后，触发上述 send_voice_command 接口，向前台控制器发送欢迎语：“您好，欢迎光临XX茶室，请说‘开灯’或‘续费’。”

四、最佳实践与避坑指南

关于数字“幺”的处理
- 在电话场景中“1”读作“幺”更清晰。如果您的SSML引擎支持，可以使用标签替换读音，例如：1。但在标准普通话TTS中，读“一”通常更正式，根据品牌调性选择。
缓存策略
- 高频播报的文本（如“欢迎光临”、“请带好随身物品”），在后端缓存对应的语音流或直接固化在下发接口中，减少重复计算。
硬件选型确认
- 芯步的控制器分为“不带语音版”和“带TTS版”，实施前请一定要确认型号后缀包含 TTS，否则接口调用成功但不会有声音输出。
标点符号的停顿
- 影响听感的关键往往不是数字，而是停顿。在SSML文本中使用逗号或句号，或者在代码中加入标签，可以让语速更自然，避免机器人感过强。

通过上述方案，您可以利用芯步开放接口的灵活性，配合SSML技术，将共享茶室前台的语音接待从“机械报数”升级为“智能、清晰、商务”的自然交流。