今日运势评分

-5

本月运势

戊子月

震荡偏多

庚生水,申金生水
庚不经络织机虚张
申不安床鬼祟入房

解除,扫舍,馀事勿取

诸事不宜

月相

底部反弹

日冲

Powered by RitMEX

ONDO0.39 -5.49%

TRUMP5.15 -2.24%

SUI1.43 -5.31%

TON1.48 -4.46%

TRX0.28 -0.42%

DOGE0.13 -3.64%

XRP1.88 -2.59%

SOL123.18 -3.75%

BNB844.16 -3.10%

ETH2825.66 -4.26%

BTC86094.32 -1.76%

ETH Gas0.36 Gwei

极恐
16

多模态视频生成技术突破,Web3 AI 有何机会?

当 AI 从过去集中式大规模资源调配逐渐趋于模块化协作是一种对去中心化平台的新需求。

撰文:Haotian

除了 AI 本地化「下沉」之外,AI 赛道近段时间最大的变化莫过于:多模态视频生成的技术突破了,从原先支持纯文本生成视频演变成文本 + 图像 + 音频的全链路整合生成技术。

随便说几个技术突破案例,大家感受下:

1)字节跳动开源 EX-4D 框架:单目视频秒变自由视角 4D 内容,用户认可度达到 70.7%。也就是说,给一个普通视频,AI 能自动生成任意角度的观看效果,这在以前需要专业的 3D 建模团队才能搞定;

2)百度「绘想」平台:一张图生成 10 秒视频,宣称可以达到「电影级」质量。但是不是由营销包装夸大的成分,要等 8 月份的 Pro 版本更新后实际看效果;

3)Google DeepMind Veo:可以达到 4K 视频 + 环境音的同步生成。关键技术亮点是「同步」能力的达成,之前都是视频和音频两套系统拼接,要能做到真正语义层面的匹配需要克服较大的挑战,比如复杂场景下,要做到画面中走路动作和脚步声的对应音画同步问题;

4)抖音 ContentV:80 亿参数,2.3 秒生成 1080p 视频,成本 3.67 元 /5 秒。老实说这个成本控制的还可以,但目前生成质量看,遇到复杂的场景还差强人意;

为什么说这些案例在视频质量、生成成本、应用场景等方面的突破,价值和意义都很大?

1、技术价值突破方面,一个多模态视频生成的复杂度往往是指数级的,单帧图像生成大概 10^6 个像素点,视频要保证时序连贯性(至少 100 帧),再加上音频同步(每秒 10^4 个采样点),还要考虑 3D 空间一致性。

综合下来,技术复杂度可不低,原本都是一个超大模型硬刚所有任务,据说 Sora 烧了数万张 H100 才具备的视频生成能力。现在可以通过模块化分解 + 大模型分工协作来实现。比如,字节的 EX-4D 实际上是把复杂任务拆解成:深度估计模块、视角转换模块、时序插值模块、渲染优化模块等等。每个模块专门干一件事,然后通过协调机制配合。

2、成本缩减方面:背后其实推理架构本身的优化,包括分层生成策略,先低分辨率生成骨架再高分辨增强成像内容;缓存复用机制,就是相似场景的复用;动态资源分配,其实就是根据具体内容复杂度调整模型深度。

这样一套优化下来,才会有抖音 ContentV 的 3.67 元 /5 秒的结果。

3、应用冲击方面,传统视频制作是重资产游戏:设备、场地、演员、后期,一个 30 秒广告片几十万制作费很正常。现在 AI 把这套流程压缩到 Prompt+ 几分钟等待,而且能实现传统拍摄难以达到的视角和特效。

这样一来就把原本视频制作存在的技术和资金门槛变成了创意和审美,可能会促进整个创作者经济的再洗牌。

问题来了,说这么多 web2AI 技术需求端的变化,和 web3AI 有啥关系呢?

1、首先,算力需求结构的改变,以前 AI 拼算力规模,谁有更多同质化的 GPU 集群谁就赢,但多模态视频生成需求的是多样化的算力组合,对于分布式的闲置算力,以及各个分布式微调模型、算法、推理平台上都可能产生需求;

2、其次,数据标注的需求也会加强,生成一个专业级视频需要:精准的场景描述、参考图像、音频风格、摄像机运动轨迹、光照条件等等都会成为专业的数据标注新需求,用 web3 的激励方式,可以刺激摄影师、音效师、3D 艺术家等提供专业的数据素,用专业垂类的数据标注增强 AI 视频生成的能力;

3、最后,值得一说的是,当 AI 从过去集中式大规模资源调配逐渐趋于模块化协作本身就是一种对去中心化平台的新需求。届时算力、数据、模型、激励等共同组合形成自我强化的飞轮,继而带动 web3AI 和 web2AI 场景的大融合。

欢迎加入深潮TechFlow官方社群

Telegram订阅群:https://t.me/TechFlowDaily
Twitter官方账号:https://x.com/TechFlowPost
Twitter英文账号:https://x.com/BlockFlow_News
作者HaotianHaotian | CryptoInsight
相关文章
2025.12.17 - 19 小时前
我高中辍学,跟 AI 学习,逆袭成为 OpenAI 研究员
学习,这个概念,在 AI 时代完全变了。
2025.12.17 - 19 小时前
盘点:人工智能与加密货币的 11 个交汇场景
希望能为行业开启更多讨论:哪些是可行的、哪些挑战尚待解决、以及未来可能如何演化。
AI
2025.12.16 - 前天
Alphabet(谷歌):全景式剖析“全栈 AI 之王”
Alphabet 当前是一个“合理偏贵 / 轻微溢价的优质标的”,已经反映 AI 带来的云的二次增长预期,但尚未进入与基本面完全脱节的严重泡沫区间。
AI
2025.12.15 - 3 天前
2025 Crypto x AI 年度复盘:哪些叙事活下来了?
整个行业正在从叙事转向基础设施,从投机转向系统化解决方案,从炒作转向实际产品。
AI
2025.12.13 - 5 天前
甲骨文暴跌 40%,AI 过度基建会拖垮巨头吗?
成则皆大欢喜,败则可能满盘皆输。
2025.12.12 - 6 天前
如何成为 Web3 超级个体?
AI+Crypto 时代的个人觉醒指南。
AI
2025.12.11 - 7 天前
2026 加密投资图景:应用链崛起,AI 代理接管 DeFi
实体资产将迎来真正的链上普及。
2025.12.10 - 7 天前
Verse8的自述:如何在AI时代支持创作表达
创造力将在协作、再创作与共享所有权中持续增值。
AI
2025.12.09 - 9 天前
达利欧:未来两年全球经济「岌岌可危」,不要因为 AI 估值过高就急于退出
虽然AI行业已现泡沫迹象,但他认为需要关注泡沫破裂的催化剂——货币紧缩或被迫出售资产以满足债务义务。
AI
2025.12.08 - 9 天前
摩根大通眼中的 2026:经济分化、政策分化、AI 采用率飙升
摩根大通预测2026年将被AI超级周期、不均衡货币政策与经济结构分化主导,支撑全球股市上行并看多标普至7500点。