芯步的硬件核心优势在于:不需要你传录音,只需要把文本POST给它的HTTP接口,硬件直接合成语音播报,延迟约80-120毫秒。这对于餐厅奶茶店的叫号场景非常合适——下单即播报,不用店员扯嗓子喊。
下面这份方案按“选硬件 → 对接接口 → 场景”来写,你可以直接拿去给技术团队参考。
一、 行业痛点与概述
在忙乱的用餐高峰期,店员一边做餐一边还要扯着嗓子喊:“57号请取餐!”这不仅让店员嗓子受不了,顾客听不清也容易抱怨。
我们的目标:当后厨出餐或前台下单时,软件系统(收银/点单系统)自动触发芯步的智能硬件,实现毫秒级的实时文本转语音(TTS) 播报。
二、 硬件选型
针对餐厅和奶茶店的不同环境,推荐以下两款硬件(接口完全一致,换设备不换代码):
| 产品型号 | 适用场景 | 核心优势 |
|---|---|---|
| 智能语音喇叭Mini | 奶茶店、咖啡吧、快餐店收银台 | 即插即用,体积小巧不占地方,音质清晰适合室内 |
| 智能语音音柱 | 大型餐厅、美食广场 | 功率大(最高60W),音量够响,防水防油 |
三、 对接原理与准备工作
1. 对接原理这套方案之所以简单,是因为它只有一步:你的服务器 -> 芯步设备。无需中间网关,无需复杂的音频处理。
你的收银系统/小程序后端 -> 调用HTTP接口 -> 芯步云 -> 店内WiFi音箱 -> 发出语音。
2. 准备工作
购买硬件并连接WiFi。
在芯步后台获取三个关键凭证:
AppId:你的应用ID。
AppSecret:秘钥,用来加密的。
Device ID:贴在硬件上的设备编号。
四、 接口对接实操
这里的“对接”简单到只需懂怎么发HTTP请求就行,任何后端语言(Java, Python, PHP, Go)都支持。
1. 签名计算为了防止别人乱用你的设备,接口需要携带签名(Sign)。逻辑是:Sign = md5( md5(AppSecret) + ts )(ts为当前时间戳)
2. 请求地址https://api.thingboot.com/{你的AppId}/device/control/?sign={计算的值}&ts={时间戳}
3. 核心指令这是最关键的一步,只需要向接口POST一段JSON,命令字段是 play:gbk:16,内容直接写汉字就行了!
示例:假设我要让店里喇叭喊“请108号顾客取餐”,我的请求Body是这样:
4. 小场景演示:语音 + 提示音如果希望先“叮”一声引起注意,再播报,可以叠加一个指令。
五、 具体业务场景
第一种场景:传统扫码点餐/叫号
顾客扫码下单,生成订单号“102”。
店员制作完成饮品,在收银系统点击“完成制作/出餐”。
系统自动触发:你的后端调用芯步接口,指令为
play:gbk:16: "请102号顾客取餐"。店内喇叭响起,顾客取餐。
第二种场景:防止后厨积压,分批叫号(略有口语化)有时候厨师做了一排餐,如果一次性全叫了,前台会堵死。我们可以这样写逻辑:只叫那些“已出餐”的。比如厨师做完第50号餐,点击屏幕上的50,代码里自动判断:“如果状态为‘可取餐’,则执行play:gbk:16: “请50号取餐”。”
六、 个性化设置
芯步的接口还支持很多远程配置,让你在不同时段或场景下调整设备。
音量控制:午餐高峰期可以调到音量9,下午茶时段调到4,避免嘈杂。
指令:
{"volume": 7}
数字读法:担心“102”被读成“一百零二”很奇怪?
你可以直接传“幺零二号”,接口支持自定义读法(可以拼接字符串解决读法问题)。
男声/女声切换
指令:
{"voice": 0}(通常0女声,1男声)。
七、 总结
低成本:相比请人喊麦,或者买昂贵的整套集成设备,这套方案只要有WiFi就能用,后续每一条语音播报几乎没有流量费。
零延时:点完单,厨房一确认,话直接就喊出来了