Interaction，从"一问一答"走向"边看边说"

京东开源了一个有意思的模型：让 AI 边「看」视频边「说话」

大模型跟视频的关系，目前大概率是这样的：你把一段视频上传给模型，模型看完之后给你一个总结。这个模式的问题在哪？模型是「看完再说」，而不是「边看边说」。

京东最近开源的 JoyAI-VL-Interaction，做的是一件不一样的事情：它让 AI 能够持续观察视频流，主动判断视频里有没有发生值得关注的事情，然后实时做出响应。

这个能力听起来可能不那么性感，但实际应用空间其实挺大的。

目前的视频理解模型，基本上都是「一问一答」模式：

这个模式的问题：用户得等模型把整个视频看完，才能拿到结果。如果视频很长（比如一整天的监控录像），这个等待时间就很要命。

JoyAI-VL-Interaction 做的是「边看边说」：模型在看着视频流的同时，就在持续判断——「哎，这个画面里好像有情况」，然后主动提醒用户。不需要用户先问，模型自己就知道什么时候该说话。

京东在发布的时候公布了一组盲测数据：在 58 个真人盲评中，对比豆包的视频通话助手，JoyAI-VL-Interaction 的胜率是 77.6%；对比 Gemini 的视频通话助手，胜率是 87.9%。在监控预警场景下，胜率达到 100%。

这个 data 需要谨慎看待——盲测的具体标准是什么、测试集是怎么构建的，这些细节还不太清楚。但即便有这些不确定性，87.9% 的胜率（哪怕是偏向 Gemini）也是一个挺显眼的数字。

京东这次开源挺彻底的，包括了：

支持的输入包括：摄像头实时画面、直播流、本地视频文件。交互方式支持语音，也有长期记忆（就是模型能记住之前跟你说过的东西，不用你每次都重复背景信息）。

还支持 vLLM-Omni 原生部署——vLLM 是一个很流行的 LLM 推理加速框架，Omni 是它的多模态版本。原生支持意味着部署起来比较方便。

京东在发布的时候提到了几个场景：

**安防监控**：这个最好理解。一个商场或园区的监控中心，以前得靠人盯着几十个屏幕看——现在可以让 AI 帮着看，有异常主动提醒。响应时间从「人工发现」变成「AI 实时提醒」，这个效率提升是数量级的。

**老人看护**：独居老人的安全监控，一直是个社会问题。用一个摄像头 + AI，可以实时判断老人是不是摔倒了、是不是长时间没有活动、是不是有异常的声音——有情况第一时间通知家属。

**直播讲解**：这个场景挺有意思的。AI 可以一边看着直播画面，一边自动生成讲解词——比如电商直播里，AI 可以实时介绍画面里的商品；或者体育赛事直播，AI 可以做实时的赛事解说。

我觉得京东这个工作的价值，不在于「技术上有多牛」（当然技术上有创新），而在于它定义了一种新的「人机交互模式」。

过去我们跟 AI 的交互，大概率是「提问-回答」的模式。不管是文字对话、语音对话、还是视频理解，都是「用户先说，AI 再答」。

但 JoyAI-VL-Interaction 展示的是一种「AI 主动」的模式：AI 在持续观察环境，判断什么时候该介入、该提醒、该说话——这个模式更像是一个「助理」，而不是一个「问答机器」。

这个方向我觉得挺对的。AI 要真正融入日常生活，不能只等着人去「用」它——它得能主动感知环境、主动提供帮助。

当然，从「技术演示」到「可靠的产品」，中间还有不少路要走。但我看好这个方向。