新闻中心
LeCun赞转!类Sora模型能否理解物理规律?字节豆包大模型团队系统性研究揭秘
视频生成模型虽然可以生成一些看似符合常识的视频,但被证实目前还无法理解物理规律!
自从 Sora 横空出世,业界便掀起了一场「视频生成模型到底懂不懂物理规律」的争论。图灵奖得主 Yann LeCun 明确表示,基于文本提示生成的逼真视频并不代表模型真正理解了物理世界。之后更是直言,像 Sora 这样通过生成像素来建模世界的方式注定要失败。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Keras 之父 François Chollet 则认为,Sora 这样的视频生成模型确实嵌入了「物理模型」,但问题是:这个物理模型是否准确?它能否泛化到新的情况,即那些不仅仅是训练数据插值的情形?这些问题至关重要,决定了生成图像的应用范围 —— 是仅限于媒体生产,还是可以用作现实世界的可靠模拟。最后他指出,不能简单地通过拟合大量数据来期望得到一个能够泛化到现实世界所有可能情况的模型。

此后,关于视频生成模型到底有没有在学习、理解物理规律,业界始终没有一个定论。直到近日,字节豆包大模型团队公布的一项系统性研究,为两者之间的关系「划上了不等号」。
该团队通过大规模实验发现 —— 即便依照 Scaling Law 扩大模型参数与训练数据量,模型依然无法抽象出一般物理规则,甚至连牛顿第一定律、抛物线运动都无法领会。
「视频生成模型目前就像一个只会『抄作业』的学生,可以记忆案例,但还无法真正理解物理规律,做到『举一反三』。因此,模型遇到未学习过的场景就会『犯迷糊』,生成结果与物理规则不符。」研究作者表示。
相关推文在 X 发布后,获得 Yann LeCun 点赞转发,还评价道 —— 结果虽不意外,但有人尝试研究确实是一件好事。
此外,CV 大牛谢赛宁和常年活跃的 Gary Marcus 等人也纷纷跟进关注。

论文标题:How Far is Video Generation from World Model: A Physical Law Perspective 论文链接:https://arxiv.org/abs/2411.02385 展示页面:https://phyworld.github.io

Sora 的世界里,物理学存在么?
此前 Sora 发布时,OpenAI 就在其宣传页面写道:我们的成果揭示了 —— 提升视频生成模型参数与数据量,为构建物理世界通用模拟器,提供了一条可行之路。
Yaara
使用AI生成一流的文案广告,电子邮件,网站,列表,博客,故事和更多…
95
查看详情

给人希望的同时,业内质疑声纷至沓来,很多人并不认为基于 DiT 架构的视频生成模型能够真正理解物理规律。其中尤以 LeCun 为代表,一直以来,这位人工智能巨头一直坚称,基于概率的大语言模型无法理解常识,其中包括现实物理规律。
尽管大家众说纷纭,但市面上,系统性针对该问题的研究一直寥寥。出于对这一课题的好奇,字节豆包大模型相关团队于 2025 年初启动了这一研究立项,并历经 8 个月终于完成系统性实验。
原理与实验设计
在本次工作中,如何定量分析视频生成模型对于物理规律的理解,是一大挑战。
豆包大模型团队通过专门开发的物理引擎合成了匀速直接运动、小球碰撞、抛物线运动等经典物理场景的运动视频,用于训练基于主流 DiT 架构的视频生成模型。然后,通过检验模型后续生成的视频在运动和碰撞方面是否符合力学定律,判断模型是否真正理解了物理规律,并具有「世界模型」的潜力。
针对视频生成模型在学习物理定律时的泛化能力,团队探讨了下面三种场景的表现:
分布内泛化 (In-Distribution, ID):指训练数据和测试数据来自同一分布。 分布外泛化 (Out-of-Distribution, OOD) :分布外泛化指的是模型在面对从未见过的新场景时,是否能够将已学过的物理定律应用到未知的情境。 组合泛化 (Combinatorial Generalization):组合泛化介于 ID 和 OOD 之间,此种情况下,训练数据已包含了所有「概念」或物体,但这些概念、物体并未以所有可能的组合或更复杂的形式出现。
在基于视频的观察中,每一帧代表一个时间点,物理定律的预测则对应于根据过去和现在的帧生成未来的帧。因此,团队在每个实验中都训练一个基于帧条件的视频生成模型,来模拟和预测物理现象的演变。
通过测量生成视频每个帧(时间点)中物体位置变化,可判断其运动状态,进而与真实模拟的视频数据比对,判断生成内容是否符合经典物理学的方程表达。
实验设计方面,团队聚焦于由基本运动学方程支配的确定性任务。这些任务能清晰定义分布内 (ID) 和分布外 (OOD) 泛化,并且能够进行直观的误差量化评估。
团队选择了以下三种物理场景进行评估,每种运动由其初始帧决定:
匀速直线运动:一个球水平移动,速度保持恒定,用于说明惯性定律。 完美弹性碰撞:两个具有不同大小和速度的球水平相向运动并发生碰撞,体现了能量与动量守恒定律。 抛物线运动:一个带有初始水平速度的球因重力作用下落,符合牛顿第二定律。

动态立式条形、一个动态罐子和一个动态立式棍子。
种独特的模板。数据示例如下:
更高的误差:在所有设置中,OOD 速度误差比 ID 高出一个数量级 (~0.02 v.s. ~0.3)。 扩展数据和模型规模的影响有限:与分布内泛化不同,扩展训练数据和模型规模对降低 OOD 误差几乎没有影响。这表明,简单的数据量和模型规模的增加无法有效提升模型在 OOD 场景中的推理能力。



模型似乎更多依赖记忆和案例模仿

模型更多靠颜色寻找模仿对象


复杂组合泛化情况

视频表征的局限性

以上就是LeCun赞转!类Sora模型能否理解物理规律?字节豆包大模型团队系统性研究揭秘的详细内容,更多请关注其它相关文章!
# 字节跳动
# 产业
# 见过
# 人
# 豆包软件
# 豆包app
# 抖音豆包
# 豆包
# 为什么
# 模拟器
# 区别
# bing
# ai
# 苹果
# git
# 豆包大模型
# 建设银行积分商城网站
# 足疗营销推广内容怎么写
# 没建设好的网站备案
# 饥饿营销美食推广
# 宜昌全网推广营销招聘
# 重庆直播网站建设推广
# 烟台seo推广经验
# 历下区seo优化
# 贵州网站建设前的分析
# 抚州百度seo
# 华纳
# 南极
# 的是
# 如下图
# 多个
# 是在
# 这一
# 三种
# 神技
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
什么是域名解析地址
市盈率百分位roe是什么意思
汽车排量是什么意思
广东春运几点抢票
汽车收音机power是什么意思
如何用dos命令启动u盘
win7怎么装扫描仪
固态硬盘如何备份
如何查看邮件域名解析
nosql数据库的应用场景有哪些
苹果16有哪些改善
如何在固态硬盘上安装win7系统
苹果16更新了哪些软件
折叠屏手机选择哪个好
vs如何输入命令行参数
固态硬盘如何打开软件
抖音GMV是什么_抖音GMV是什么意思
ai显示无法找到链接的文件是什么意思
苹果16要升级哪些功能
ai文件在线打开工具有哪些
广东春运抢票怎么抢的
为什么都用typescript
12306放票时间规律(2025)
如何安装笔记本固态硬盘
如何提高固态硬盘速度
估值水平比较中市盈率E是什么意思
固态硬盘内存如何查找
跑步机power键是什么意思
xdm是什么意思
element ui是什么
单片机*计步器怎么用
春运抢票最新技巧与方法
如何创建解压文件命令
虽千万人吾往矣什么意思
单片机for循环怎么用
put linux命令如何书写
typescript怎么解析vue TypeScript在vue中的使用最新解读
typescript数据怎么写
typescript为什么现在才火
单片机.lib文件怎么打开
typescript如何定义常量
喇叭上标的power30w是什么意思
春运抢票需要抢几天
舆论是什么意思
市盈率20a21e是什么意思
固态硬盘 如何分区
冰柜power是什么意思这个黄灯怎么不亮
4800日元等于多少人民币
typescript如何使用
华为交换机如何复制命令行


2024-11-08
浏览次数:次
返回列表