AI�����鱨վ
AI AI工具情报站
国内AI动态 ai-models

Interaction,从"一问一答"走向"边看边说"

公众号:京东JoyAI 2026-06-23

京东开源了一个有意思的模型:让 AI 边「看」视频边「说话」

大模型跟视频的关系,目前大概率是这样的:你把一段视频上传给模型,模型看完之后给你一个总结。这个模式的问题在哪?模型是「看完再说」,而不是「边看边说」。

京东最近开源的 JoyAI-VL-Interaction,做的是一件不一样的事情:它让 AI 能够持续观察视频流,主动判断视频里有没有发生值得关注的事情,然后实时做出响应。

这个能力听起来可能不那么性感,但实际应用空间其实挺大的。

「一问一答」vs「边看边说」

目前的视频理解模型,基本上都是「一问一答」模式:

  • 用户:这是一段监控视频,帮我看看有没有异常
  • 模型:(看完整个视频)好的,在第 3 分 12 秒处发现一个人翻墙

这个模式的问题:用户得等模型把整个视频看完,才能拿到结果。如果视频很长(比如一整天的监控录像),这个等待时间就很要命。

JoyAI-VL-Interaction 做的是「边看边说」:模型在看着视频流的同时,就在持续判断——「哎,这个画面里好像有情况」,然后主动提醒用户。不需要用户先问,模型自己就知道什么时候该说话。

盲测胜率:对比豆包 77.6%,对比 Gemini 87.9%

京东在发布的时候公布了一组盲测数据:在 58 个真人盲评中,对比豆包的视频通话助手,JoyAI-VL-Interaction 的胜率是 77.6%;对比 Gemini 的视频通话助手,胜率是 87.9%。在监控预警场景下,胜率达到 100%。

这个 data 需要谨慎看待——盲测的具体标准是什么、测试集是怎么构建的,这些细节还不太清楚。但即便有这些不确定性,87.9% 的胜率(哪怕是偏向 Gemini)也是一个挺显眼的数字。

开源了哪些东西?

京东这次开源挺彻底的,包括了:

  • **模型权重**:可以直接下载来用
  • **交互数据集**:模型训练用到的数据集也开源了,其他人可以基于此做进一步研究
  • **训练方案**:怎么训练的,也公开了
  • **完整可部署系统**:不是只放一个模型权重就完了,而是给了一套可以实际部署的系统

支持的输入包括:摄像头实时画面、直播流、本地视频文件。交互方式支持语音,也有长期记忆(就是模型能记住之前跟你说过的东西,不用你每次都重复背景信息)。

还支持 vLLM-Omni 原生部署——vLLM 是一个很流行的 LLM 推理加速框架,Omni 是它的多模态版本。原生支持意味着部署起来比较方便。

适合用在哪些场景?

京东在发布的时候提到了几个场景:

**安防监控**:这个最好理解。一个商场或园区的监控中心,以前得靠人盯着几十个屏幕看——现在可以让 AI 帮着看,有异常主动提醒。响应时间从「人工发现」变成「AI 实时提醒」,这个效率提升是数量级的。

**老人看护**:独居老人的安全监控,一直是个社会问题。用一个摄像头 + AI,可以实时判断老人是不是摔倒了、是不是长时间没有活动、是不是有异常的声音——有情况第一时间通知家属。

**直播讲解**:这个场景挺有意思的。AI 可以一边看着直播画面,一边自动生成讲解词——比如电商直播里,AI 可以实时介绍画面里的商品;或者体育赛事直播,AI 可以做实时的赛事解说。

这件事为什么值得关注?

我觉得京东这个工作的价值,不在于「技术上有多牛」(当然技术上有创新),而在于它定义了一种新的「人机交互模式」。

过去我们跟 AI 的交互,大概率是「提问-回答」的模式。不管是文字对话、语音对话、还是视频理解,都是「用户先说,AI 再答」。

但 JoyAI-VL-Interaction 展示的是一种「AI 主动」的模式:AI 在持续观察环境,判断什么时候该介入、该提醒、该说话——这个模式更像是一个「助理」,而不是一个「问答机器」。

这个方向我觉得挺对的。AI 要真正融入日常生活,不能只等着人去「用」它——它得能主动感知环境、主动提供帮助。

当然,从「技术演示」到「可靠的产品」,中间还有不少路要走。但我看好这个方向。

来源:公众号:京东JoyAI

查看原文