如何在无人值守场所安全语音提醒场景中接入智能设备来实现多音字读法支持_解决方案

如何在无人值守场所安全语音提醒场景中接入智能设备来实现多音字读法支持

2022-10-10 发布浏览：951 次

CATALOG

无人值守场景下，语音提醒设备能不能“好好说话”——尤其是把多音字读对——直接影响使用体验。这篇方案会从实际痛点出发，讲清楚怎么用芯步的开放接口配合简单的文本预处理，解决“一行文字两种读法”的尴尬。

在很多无人值守的场所，比如地下停车场、自助加油站、仓库重地、或者景区的“禁止攀爬”区域，我们都需要设备自动进行语音提醒。

典型的尴尬场景：假设你在自助加油站贴了个码，有人扫码支付成功，设备要播报：“支付成功，请提枪加油。” 结果设备读成了“请 tí 枪加油”（提东西的提），不仅听起来像外星语，还可能让用户误解操作。

或者是停车场出口：“请出示付款码，正在重试（chóng shì）连接。” 结果读成了“重（zhòng）试”，显得非常不专业。

传统的TTS（文字转语音）是直接把文字扔给芯片，芯片见字发音，遇到“一行文字多种读法”就懵了。要解决这个问题，我们不能只靠硬件，必须靠“云端大脑”的预处理。

由于芯步的设备开放接口支持接收JSON格式的字符串，并且其智能语音产品线（如智能喇叭3、智能音柱）明确支持多音字标记。

我们可以通过以下逻辑来解决：后端服务器在发送文字前，先对文本进行“多音字清洗”和“注音标注”，然后再通过芯步的HTTP接口推送给设备。

参考行业通用的SSML（语音合成标记语言）规范，我们可以使用特定标签来“教”设备读音。

我们将整个过程分为三步，重点在第二步的代码逻辑里。

假设我们是停车场系统。当地磁感应检测到车辆驶出但扫码失败，或者红外感应到有人闯入禁区，你的业务系统（服务器）就准备发指令了。

这一步是你的服务器需要做的事情。你不能直接发送 “欢迎来到重庆”，你需要发送带注音指令的文本。

芯步的接口虽然原生支持多音字，但具体实现方式有两种，这里推荐最稳妥的 “替换/注音法”。

具体操作方案：

在发送给设备的 order 参数中，我们可以借鉴标签逻辑（取决于芯步底层TTS引擎，如果是芯步的高端语音音柱，通常支持类似SSML的简化指令）。

假设场景A：解决地名读音

假设场景B：解决“作业”与“操作”

对于无人值守场景，建立一个“易错词库”：在你的服务器里维护一个Map（字典）。

当文本处理好后，就可以调用芯步的Open API了。

接口地址： http(s)://api.thingboot.com/{你的AppID}/device/control/请求方式： POST核心参数

构造示例

注：具体命令字段如 play:gbk:16 请参考具体购买设备的文档，不同型号略有差异。

实时性：芯步的接口响应非常快（毫秒级），车辆经过道闸时，不需要等待，即插即播。
维护成本低：你不需要去现场给设备升级固件。所有“纠错”逻辑都在云端服务器上。如果你发现“步行街”读成了“步行（hang）街”，直接在云端词库里加一条替换规则就行，立马生效，不用跑一趟现场。
设备兼容性：芯步的智能语音设备（如智能语音喇叭3）明确支持多音字和数字读法，且音质音量都够大，适合嘈杂的户外无人区。

关于数字读法：无人值守经常涉及到金额或时间。如果你的场景是“请支付100元”，利用接口功能指定数字读法。如果不指定，可能读成“一百”而不是“幺零零”，在信号不好的停车场，“幺”开头的数字更清晰。可以尝试使用标签（如果支持）或直接替换文本逻辑（将“100”替换为“一百元”）。
关于签名鉴权：调用芯步接口时，记得按照文档计算 sign。公式是 md5(md5(AppSecret) + ts)。不要把 AppSecret 写在客户端（比如手机APP里），一定要放在你自己的后端服务器，防止泄露。
失败重试机制：无人值守最怕没声音。调用接口返回 code 200 只代表平台收到了，不代表设备响了（可能设备离线）。订阅平台的消息推送，如果设备执行失败，你的系统要有备用方案（比如再次下发，或者发短信给管理员）。