Discuz! Board

 找回密码
 立即注册
查看: 46|回复: 0

没有可能参考这个经验获

[复制链接]

1

主题

1

帖子

5

积分

新手上路

积分
5
发表于 2024-3-19 17:05:54 | 显示全部楼层 |阅读模式
成功那我有得一次新的成功呢答案是可以。 enI 认为之前在大语言模型上的成功得益于 en 可以翻译成令牌、标记、词元都可翻译为词元会更好理解一些en 可以优雅的把代码、数学以及各种不同的自然语言进行统一进而方便规模巨大的训练。于是他们创造了对应 en 的 “he  概念 块如果 en 翻译为词元理解的话he 或许可以被我们翻译为 “ 图块用于训练 r 这个视频模型。 实际上在大语言模型中en 的应用之所以会如此成功还得益


于 rnfrer 架构他与 en 是搭配着来的所以 r 作为一个视频生成扩 海外亚洲数据 散模型区别于主流视频生成扩散模型采用了 rnfrer 架构。 主流视频生成扩散模型较多采用 U-Ne 架构  也就是说enI 赢在了经验与技术路线的选择上。 但是rnfrer 架构这个 “ 成功密码 人尽皆知在文字、图像生成上已经成为了主流为什么别人没想着在视频生成上用enI 就用了呢这源自另外一个问题rnfrer 架构中全注意力机制的内存需求会随着输入序列长度而二次方增长所以处理视频这样的搞微信号时计算成本会非常非常高。 通俗点说就是虽然用了 rnfrer 效果会好但所需的计算资源也是非常恐怖的这么做不是很经济。 当然enI 虽然拿各种融资拿到手软但也依





然没那么财大气粗所以他们并没有直接猛砸资源而是想了另外一种方式来解决计算成本高昂的问题。 这里我们要先引入 “len  潜这一概念它是一种 “ 降维  或者说是 “ 压缩意在用更少的信息去表达信息的本质。我们列举一个不恰当但好理解的例子这就好像我们用一个三视图就能保存记录一个简单的立体物体的结构而非一定要保存这个立体本身。 enI 为此开发了一个视频压缩网络把视频先降维到潜空间然后再去拿这些压缩过的视频数据去生成 he这样就能使输入的信息变少有效减小 rnfrer 架构带来的计算量压力。 如此一来大部分问题就都解决了enI 成功地把文生视频模型套进了其在过去取得巨大成功的大语言模型的范式里所以效果想不好都难。 除此之外enI 在训练上的路线选择也稍有不

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|NFT数字藏品交易-全球交流论坛

GMT+8, 2024-4-28 10:28 , Processed in 0.118002 second(s), 19 queries .

NFTOTC!

快速回复 返回顶部 返回列表