AI像电影人一样「看」视频,8B小模型反超GPT-5与Gemini-3.1-Pro-今日快讯
2026-05-08 17:13:04 来源: 机器之心Pro
团队一作林之秋(Zhiqiu Lin)是卡内基梅隆大学(CMU)机器人研究所的博士,研究方向涵盖视觉 - 语言大模型的评估、数据与生成;前作 CameraBench 曾获 NeurIPS’25 Spotlight(Top 3%)。二作 Chancharik Mitra 即将前往麻省理工学院(MIT)攻读博士,专注于多模态大模型。本工作由 CMU 与哈佛大学合作完成。
(资料图)
先来做一个小实验:把希区柯克变焦(dolly zoom)、拉焦(rack focus)、荷兰角(Dutch angle)或变速剪辑(speed ramp)这几个词,输入到大部分主流视频生成器里。结果几乎都一样,你只会得到一个普通的推镜,或一段平庸的慢动作。
原因很简单:这些技法对应着电影人之间通用的一套「镜头语言」,而当前的视觉 - 语言大模型几乎听不懂。
视频链接:https://mp.weixin.qq.com/s/SCk63tSurxIeuaVNxqgSkA
近日,由 CMU 联合哈佛大学组成的研究团队推出了CHAI(Critique-based Human-AI Oversight),一整套从「标注体系」「可扩展监督」到「后训练方法」再到「视频生成」的完整方案。该工作已被CVPR 2026 接收为 Highlight 论文(Top 3%)。
- 论文链接:https://arxiv.org/abs/2604.21718
- 代码:https://github.com/chancharikmitra/CHAI
图 1:CHAI 的整体方案。上半(红)是过往视频字幕工作的三大短板:缺乏统一规范、仅用人类或模型标注、仅凭输出对比做后训练;下半(蓝)是 CHAI 的对应方案:精准的结构化规范、可扩展的人机监督、基于显式偏好与批改的后训练,最终反哺出更专业的视频生成。
概述:CHAI 的四块拼图
CHAI 不是一个单独的模型,而是一整套面向精准视频语言的落地方案,由四块拼图组成:
- 标注体系(Specification):覆盖主体、场景、动作、空间构图和移动、镜头参数和运动 5 大维度,由 200+ 个与职业摄影师共同设计的视觉基元支撑。
- 可扩展监督(Scalable Oversight):让 LLM 起草字幕,由人类专家给出批改(critique),指出错误并提供修正,再交由 AI 改写。这一过程让 AI 负责写作,人类专注纠错,各司其长。
- 后训练方法(Post-Training):基于(初稿,批改,终稿),同时训练字幕、奖励模型与批改模型。团队训练的 Qwen3-VL-8B 开源小模型得以反超闭源的 Gemini-3.1-Pro 与 GPT-5。
- 更好的视频生成(Better Generation):用后训练好的模型重新对专业视频打字幕,再微调 Wan2.2,使其能听懂长达 400 英文词的电影级指令,精准生成希区柯克变焦、拉焦、荷兰角、变速、等距视角等专业摄影技法。
一、标注体系:把电影人的镜头语言写下来
过去的视频文本数据集(如 ActivityNet、MSR-VTT、PerceptionLM)由于缺乏字幕规范,常见问题包括:混淆 dolly-in(推轨)与 zoom-in(变焦),遗漏关键相机与变焦细节,用「氛围感足」「让人热血沸腾」等主观描述代替客观视觉内容。
电影人以及更广泛的视频创作者则没有这个问题。他们用拉焦(rack focus)、荷兰角(Dutch angle)、中景(medium full shot)这样的专业术语在片场与团队实现了精准的沟通、协作。CHAI 正是把这套影视行业内的通用词汇整理成了一套清晰的标注体系。
图 2:与 100+ 位职业视频创作者历时一年共建的标注体系。左(红):过往数据集的三类典型问题,包括术语含混、信息缺失、主观描述;右(蓝):CHAI 的结构化标注体系及配套的标注规则与教程。
CHAI 的字幕标注覆盖 5 大维度:
- 主体(Subject):类型、外观、姿态、主体关系等
- ️ 场景(Scene):视角、叠加元素、环境、时间等
- 动作(Motion):动作行为、人物互动、群体动态等
- 空间构图和移动(Spatial):景别、画面位置、纵深、空间运动等
- 镜头参数和运动(Camera):机位高度、角度、焦距、聚焦、稳定度、运动轨迹等
图 3:CHAI 的视频语言分类体系:各一级维度进一步细分为多个子维度,并由 200 余个视觉与运动基元支撑,实现对视频内容的精细化表达。
二、可扩展监督:AI 起草,人类批改
规范告诉你「描述什么」,但「谁来写」仍是个问题。
人类亲手写的字幕常见问题有:错别字、语法错误、事件顺序混乱。模型写的字幕:行文流畅,却经常凭空捏造画面里没有的物体和动作(模型幻觉)。
CHAI 的核心思路是可扩展监督(Scalable Oversight):让模型负责写作,让人类专注发现字幕中的视觉与动作错误,各司其长。
CHAI 的标注流程由此被重新设计为「AI— 专家 —AI」的三段式协作:模型先按既定规范生成一份覆盖全面的「pre-caption」初稿,专家随后在初稿基础上指出错误并提出修改建议(critique),无需从零撰写字幕;模型再依据专家的批改意见进行改写,生成准确的「post-caption」终稿。
同时,CHAI 引入同行评审奖励机制:标注越准确,奖励越高;审核纠错同样有奖励。这一举措显著提升了标注的质量。
图 4:左(红):传统纯人工或纯模型标注的三类问题,包括视觉幻觉、行文糟糕、细节不准;右(蓝):CHAI 的可扩展监督框架。AI 基于基元生成初稿(pre-caption),人类用批改(critique)把幻觉与细节错误指出来,再由 AI 生成终稿(post-caption);标注员与审核员之间则通过同行评审奖励机制相互制衡。
把标注员工作重心从「写作」转向「校对」,他们对单个视频的认知负担得以显著降低,却能产出准确度更高的 200–400 词长字幕。
三、后训练效果:8B 小模型反超 GPT-5 与 Gemini-3.1-Pro
CHAI 流水线产出的不只是字幕,而是(pre-caption, critique, post-caption)三元组:一份数据,同时可以训练三种模型能力,包括字幕生成、奖励建模、批改生成。
CHAI 团队发现:批改的质量,决定了模型能力。
图 5:一条好的批改必须同时满足三个属性:准确(precision)、完整(recall)、有建设性(constructive)。CHAI 的标注机制通过强制标注员撰写高质量批改,直接指导模型改写,自然实现了这三点。
为了证明这一点,团队做了一组对比实验:分别削弱批改的某一项属性,观察对下游任务的影响。
研究得出三项关键结论。其一,在模型训练时加入奖励(reward)和批改(critique)的数据能够显著提升 SFT 与 RL 的效果,仅 8B 参数的 Qwen3-VL 经过后训练,便在多项关键评测上反超闭源的 Gemini-3.1-Pro 与 GPT-5。其二,批改质量是真正的瓶颈所在,准确性、完整性、和建设性三者缺一不可;然而过往工作(如 OpenAI GDC、MM-RLHF)所收集的批改样本中,超过 50% 属于非建设性反馈。其三,推理时扩展(Inference-Time Scaling)同样适用于这一框架,以同一份奖励模型进行 best-of-N 选择,无需新增数据,性能即可持续提升。
四、更准的理解 → 更好的生成
视频字幕做得更准之后,最直接的下游应用就是视频生成。
研究团队用后训练好的字幕模型,重新对大规模专业视频(电影、广告、MV、游戏画面)进行打标,再以这些数据微调 Wan2.2。结果:模型可以听懂长达 400 词的电影级指令,对那些开源生成器(Wan2.2)普遍翻车的技法实现精准生成。
图 6:在重新打标的专业视频上微调后,Wan2.2 对详细的电影级指令显著更忠实,可以精准执行希区柯克变焦(上)、保持 2.5D 等距视角(下)等过往视频模型频繁失败的复杂技法。
下面是更多团队展示的「电影技法」生成样例:
荷兰角(Dutch Angle)画面地平线倾斜
视频链接:https://mp.weixin.qq.com/s/SCk63tSurxIeuaVNxqgSkA
拉焦(Rack Focus)焦点在不同平面切换
视频链接:https://mp.weixin.qq.com/s/SCk63tSurxIeuaVNxqgSkA
为什么不用众包?为什么过去的标注总是失败?
在请来职业创作者之前,团队也尝试过众包工人。结果?众包标注员仍然分不清 推轨(dolly-in)与 变焦 (zoom-in)、把全景镜头(full shot)叫成 特写(close-up shot)、把鱼眼镜头(fisheye lens)造成的建筑物变形描述成「圆形的建筑」。
图 7:众包标注员描述常见镜头技法时的典型错误。把鸟瞰镜头叫「鸟瞰视图」、把鱼眼镜头看作「圆形建筑」、把推焦镜头描述为「推轨镜头」等,反映出他们缺乏对镜头语言的基本视觉词汇。
为进一步验证这一判断,团队系统评估了 2016 至 2025 年间发布的 8 个公开视频 - 文本数据集(包括 MSR-VTT、PerceptionLM、Dream1K 等),结果指向两类反复出现的问题。其一源于标注规则缺失,术语含混、关键信息缺失;其二源于监督不足,导致行文混乱与细节失真。无论扩大模型规模还是增加数据体量,都难以解决,根本问题在于流程,必须从数据标注源头入手。这一发现直接促成了 CHAI 团队和 100+ 位职业视频创作者的长期合作。
写在最后:开源生态
为了支持后续研究与产业落地,CHAI 团队完整开源了:标注体系、培训教材、标注平台、质控流程、数据、代码与模型。
项目主页:https://linzhiqiu.github.io/papers/chai/
CHAI 是该 CMU 团队「精准视频语言」研究计划中的一环。同期推进的还有两项工作:CameraBench(NeurIPS"25 Spotlight,入选率前 3%)作为相机运动理解的前作基准,包含约 3000 个专家标注视频、一套完整的运动基元分类体系,以及对 SfM 与 VLM 方法的系统性评测;Moodio 与 CameraBench-Pro(2026 年 5 月发布)则在此基础上更进一步,基于 225 个电影级基元与 150 万余条专业标注,面向专业视频制作场景打造 AI 协作工具。
为您推荐
精彩放送
热门文章
-
每日热点:白阿铁路乌兰浩特至阿尔山扩能改造工程开工建设
-
图解财报:铭利达全年归母净利润-2.35亿元,上年同期-4.69亿元
-
【独家焦点】苏博特:2026年一季度净利润3018.7万元 同比增长24.08%
-
润丰股份:一季度净利润1.65亿元 同比下降35.61%
-
热搜!东方甄选主播天权和明明离职_每日看点
-
塔牌集团:融资净买入510.73万元,融资余额1.28亿元
-
【调研快报】邦德股份接待山东东宏私募基金管理有限公司等13家机构调研-热点评
-
上证综指4月15日涨0.01%
-
德尚:带姆巴佩登贝莱这些球星不算难,他们都有很强团队意识
-
民营银行哪个公司好(2025年第四季度营收排行榜)
-
中小板水利建设概念股股票一览,代码查询
-
一季度IPO受理新动向: 上交所6家深交所3家北交所2家 看热讯
精彩图片
热文
-
和泓服务:2025年亏损6468.9万元
-
钟树铭:向“绿”向“新” 用“好材料”成就“好房子”
-
中消协发布“五一”消费提示
-
较去年同期下降58.77%,欧圣电气(301187.SZ)2025年净利润为1.05亿元-快讯
-
焦点速讯:23只创业板股获杠杆资金加仓超10%
-
全国春播进展顺利 意向面积总体稳定_观察
-
锂电“淡季不淡” 独家焦点
-
一周牛熊股丨6股涨超40%,最牛股周涨超94%
-
伊朗战争“扑朔迷离” 全球科技股“爆炸上涨”!高盛对冲基金业务主管:这个市场很难做
-
苯甲酰氯商品报价动态(2026-04-26)_快报
-
润丰股份:一季度净利润1.65亿元 同比下降35.61%
-
微速讯:*ST海源:申请撤销公司股票退市风险警示
-
简讯:四川黄金:第一季度净利润同比增长176.93%
-
每日播报!涪陵榨菜:第一季度净利润同比增长0.07%
-
PriceSeek重点提醒:玖龙纸业上调牛卡纸瓦楞纸价|热文
-
回榜首!阿森纳夺冠概率升至72.4% 曼城遭看衰:会输2场+3分丢冠
-
焦点简讯:能源央企旗下上市公司,重大资产重组过审
-
湖南“十五五”规划微解读|湖南农村公路会有哪些新变化
-
航行警告:黄海南部部分海域进行实弹射击-焦点短讯
-
解锁普惠新玩法,招行数智化票据服务这波操作太6了 每日速讯
-
热搜!东方甄选主播天权和明明离职_每日看点
-
实时焦点:国泰海通:Q1归母净利润为63.88亿元,同比下降47.82%
-
焦点日报:轰29分+7记三分!中国男篮29岁王牌崛起:效率值超胡金秋剑指MVP
-
郑钦文:我还需要时间来调整,找回我在红土的赢球方式
-
图解财报:欧晶科技全年归母净利润-2.80亿元,上年同期-5.36亿元
-
每日速读!图解财报:中航光电一季度归母净利润3.98亿元,同比减少37.75%
-
时讯:图解财报:白云电器全年归母净利润2.04亿元,同比增长4.01%
-
燃气安全进校园,携手共筑“平安墙”——襄阳华润燃气开展燃气安全进校园活动|速看料
-
热门看点:央行定于4月27日发行守护地球家园金银纪念币一套
-
仅看大盘,真假都是小阴线-每日聚焦
-
生意社:4月24日鲁西化工异丁醛报价暂稳
-
这张合照 寄托了穿越70多年的思念
-
今日快看!4月24日油气开采Ⅱ板块跌幅达2%
-
4月24日民爆制品板块跌幅达2% 每日看点
-
塔牌集团:融资净买入510.73万元,融资余额1.28亿元
-
快看:中信证券:物理AI蓬勃发展,场景落地有望提速
-
每日快讯!2026年五大联赛+所有赛事助攻榜:奥利塞、迪亚斯、B费前3
-
达瑞电子:2025年归母净利润2.82亿元,同比增长16.72%
-
国民好车2.0深蓝L06增程版正式开启大定
-
实时:美股SaaS板块开盘普跌,ServiceNow跌14.9%,微软下跌2.5%,Adobe下跌4.9%,Crowdstrike下跌3.5%
-
欧科亿:2025年净利润同比增长80.81% 拟10派2.5元
-
南京绿环开展落叶飘絮专项清理,守护春日洁净 焦点速看
-
最新快讯!崔丽丽与前公司劳动争议案将择期宣判
-
每日信息:武汉医护与新疆脑出血患者:跨越语言与民族的“双向奔赴”
-
生意社:4月23日东方华龙石油焦价格下调_当前聚焦
-
每日视讯:甲状腺癌被称为“懒癌”,但这件事千万不能懒 | 肿瘤防治早知道
-
最新资讯:勇芯科技完成近亿元A轮融资,蚂蚁集团战略领投
-
权威认可,载誉前行——沧州莱恩口腔医院董事长林国锦荣登新华网
-
快报:联想ThinkPad新品齐发:X1 Carbon Aura AI 2026领衔,天禧AI抢眼
-
停牌!002977,被退市风险警示