[翻译] 使用Transformer改进对话轮次结束检测|AI TOPIC

livekit 引入了利用大模型来来做轮次检测，解决AI对话中的误打断，比基于人声的VAD 准确度提高很多，非常有意思的尝试。
技术细节
1、基于一个 135M的模型（SmolLM2-135M）微调而来，量化之后CPU上就能跑。
2、将意外打断减少了85%，仅有3%的情况下错误地判断对话未结束。
原文: https://blog.livekit.io/using-a-transformer-to-improve-end-of-turn-detection/

CleanShot 2024-12-22 at 22.50.15@2x.png

目前语音人工智能应用最难解决的问题之一是对话回合结束检测。在对话式人工智能的背景下，轮次判断是确定用户何时结束讲话以及人工智能模型何时可以做出响应而不会无意中打断用户的任务。
检测对话轮次结束的最常见技术称为短语端点。短语端点是一种算法，试图确定用户何时说完完整的想法或话语。几乎每个人，包括 LiveKit 的代理框架，都使用语音活动检测(VAD) 作为短语端点。它的工作原理如下：

通过神经网络运行音频数据包，输出音频是否包含人类语音。
- 如果音频样本包含人类语音，则用户尚未说完。
- 如果音频样本不包含人类语音，则启动计时器来跟踪“沉默”的长度（即不存在可检测到的人类语音）。一旦经过了由开发人员您设定的特定时间阈值，而没有人说话，那一刻就代表了话语的结束。人工智能模型现在可以对用户的输入进行推理并做出响应。

代理使用Silero VAD来检测语音活动并提供计时参数来调整其灵敏度。一旦代理确定用户已停止说话，框架就会在启动LLM推理之前引入延迟。

这种延迟有助于区分自然暂停和用户回合结束。您可以使用min_endpointing_delay参数配置此延迟。 min_endpointing_delay的默认值为 500 毫秒。这意味着一旦 VAD 检测到从人类语音到缺失的转变，并且缺失持续至少 500 毫秒，就会触发回合结束事件。

您可以通过降低端点延迟阈值来让代理更快地响应，但代价是频繁中断。如果您将阈值增加到一两秒，您的代理会感觉没有响应。

这里明显的问题是一刀切的方法不可能解释每一种用例、每一种说话风格或每一种口语。

一个更大的问题是，VAD 仅在某人说话时进行识别（通过分析音频信号的存在），而人类还使用语义、某人所说的内容以及他们的说话方式来确定何时轮到他们说话。

例如，如果有人说，“我理解你的观点，但是……”——VAD 会将此称为回合结束，但人类很可能会继续倾听。

几个月来，我们一直在探索如何将语义理解融入 LiveKit Agents 的回合检测系统中。经过大量的实验和测试，我们很高兴发布一个开源 Transformer 模型，该模型使用语音内容来预测用户何时结束讲话。在我们深入研究它的工作原理以及它如何用于轮流检测之前，请先查看结果：https://youtu.be/EYDrSSEP0h0