掩码龙套扩散模子,可能并莫得看上去那么强横。
这是清华及英伟达测度东谈主员最新冷落的不雅点。
他们发现,当作龙套扩散模子中性能最强的类别,掩码扩散模子可能有点"被包装过度"了。为啥呢?
第一,这类模子所声称的超高性能,其实是由于一个工夫上的小污点,用 32 位狡计时,模子会产生一种"降温"成果,使模子看起来分解很好,但执行上仅仅各样性被缩小了。用更精准的 64 位狡计,就会发现它们的分解并不如声称的那么好。
第二,这些模子引入了"时候"的主意,看起来很高档,但测度发现这皆备没必要。
第三,这些模子其实与已有的浅薄掩码模子皆备等价,唯有正确确立浅薄模子的参数,就能达到相通成果。
面前,这篇测度已入选 ICLR 2025。

具体说了啥?通盘来看。
布景
跟着 SEDD 取得 ICML 2024 最好论文奖,发源于 D3PM 的龙套扩散模子迎来了复兴并成为自回来范式的有劲竞争者,在文本、卵白质等龙套序列生成任务上掀翻了测度振作。
当作龙套扩散模子中性能最强的类别,掩码式龙套扩散模子(简称掩码扩散模子)在后续责任中被进一步简化,从而在表面形状上与一语气空间扩散模子对皆。
掩码扩散模子通过引入一个一语气的"时候"或"噪声水平"的主意,界说了一个从原始数据逐步"加噪"(掩码)到皆备掩码景况的前向经由,以及一个学习从掩码景况冉冉"去噪"(测度被掩码部分)还原数据的反向(生成)经由。
在使用生成式困惑度(Gen PPL)当作量度文本生成质料的蓄意时,掩码扩散模子在先前责任中均显现出了随采样步数加多的性能耕作,并在满盈多步数下卓越自回来模子。
这种对比是否公谈?同期,当作龙套空间中的"扩散"模子,是否意味着其不错模仿圭臬扩散模子磋商算法来增强性能?
论文从老师和采样两个方濒临掩码扩散模子进行解构。
掩码扩散模子与掩码模子的互异

尽管掩码扩散模子模仿了扩散模子的框架,但其中枢操作与经典的掩码话语模子(如 BERT,Mask-Predict) 或掩码图像生成模子(如 MaskGIT)有着相似之处:都是对部天职容进行掩码(masking),然后测度被掩码的内容。
BERT 在老师时只会掩码一小部分 token,适用任务为表征学习、文本勾通而非生成,而 Mask-Predict 与 MaskGIT 扩大了掩码比例的鸿沟并可用于文本、图像生成。
比较于掩码模子,掩码扩散模子引入了一个要道的复杂性:时候步(time step)。其老师和采样都严格依赖于一个事前界说的、随时候变化的掩码(噪声)退换。
模子需要根据现时的时候步 t 来测度原始数据。
具体而言,它和掩码模子的互异体当今:
在老师中,掩码模子被掩码的 token 数目及不同掩码比例对应的耗损权重不错猖狂设定;掩码扩散模子灭亡时候对应被掩码 token 的数目是不细主见,不同时期的踱步及权重需要颠倒确立使得耗损组成模子似然(likelihood)的笔据下界(ELBO)。

在采样中,掩码模子按照 token 为粒度,逐 token 解码;掩码扩散模子以时候为粒度进行龙套化,从时候 t 转折到更小的时候 s 时,每个 token 被解码与否通过概率采样决定,被解码 token 的数目是不细主见。

掩码扩散模子的采样存在隐性数值问题
先前评估掩码扩散模子性能的要道蓄意之一是 Gen PPL,其通过狡计参考模子(如 GPT-2)对模子生成内容的"骇怪进度"来量度生成质料。
可是,Gen PPL 蓄意对采样经由中的超参数(如采样温度)极为敏锐,况且不错通过诊治这些参数猖狂地"刷低"数值,但这并不代表模子自身的生成才气有本色耕作。
本测度初次揭露,掩码扩散模子特有的采样经由存在荫藏的数值问题,即使在常用的 32 位浮点数精度下也会带来访佛于缩小温度的成果。

为了显现这一丝,论文非凡测试了生成句子的熵(entropy)来量度生成各样性。
跟着采样步数的加多,Gen PPL 束缚着落并越过自回来模子(左图),可是熵也在抓续缩小(右图)。

当采样经由以 64 位精度进行时,熵褂讪在与自回来模子访佛的水平,而 Gen PPL 则显赫升高并远远过时于自回来模子。
论文通过进一步的数学推导,从表面上解释了这一温度缩小成果的根源。
具体而言,在 [ 0,1 ) 区间上均匀采样的浮点数执行鸿沟为 [ 0,1- ε ] ,其中 ε 是一个接近 0 的一丝,这会导致基于 Gumbel-max 手段的类别采样(categorical sampling)存在截断问题。


最终的踱步不盲从原先的类别概率 π,而会偏移到
,其中

这一偏移会加强原先概率仍是比较大的类别,从而达到访佛缩小温度的成果。
通过对类别采样部分的代码作念对照窥伺,著述考证了 64 位采样 + 手动截断如实不错复现 32 位采样的成果。


同期,上述数值问题关于单个 token 并不显赫,逐 token 解码的模子(如自回来模子、掩码模子)在 32 位下基本不受影响。
可是,此问题会在掩码扩散模子中非凡影响总共 token 之间的交互,导致某些 token 被优先解码,进一步缩小生成各样性。
不错说,这是掩码扩散模子采样经由特有的数值问题。
掩码模子与掩码扩散模子的等价性
先前责任从最优网罗的角度分解了掩码扩散模子中的时候并毋庸要,本论文进一步在老师和采样两方面分解掩码扩散模子和掩码模子的等价性。
具体而言:
在老师耗损函数上,掩码扩散模子与时候磋商的似然下界等价于掩码模子的以 token 为粒度的耗损函数,唯有餍足:(1)被掩码 token 的个数 n 在 1 和 L 之间均匀采样,其中 L 是序列的总长度(2)测度耗损对 n 取均值,即施加"似然权重" 1/n来完了最大似然老师。

需要扫视的是,对不同时期 / 掩码比例施加的权重并不影响网罗在无穷容量下的最优值,而决定了网罗老师经由中的要点优化区域。
文本生成的自回来范式罗致了最大似然老师,而在图像上,最大似然老师通常会带来生成质料的着落。
在采样经由上,掩码扩散模子逆时候的采样经由不错通过论文冷落的首达采样器(first-hitting sampler),滚动为与掩码模子相通的逐 token 采样,最多需要 L 步便可达到莫得龙套化差错的精准采样,而掩码扩散模子原有采样经由需要对时候无穷细分才能皆备精准。同期,罗致逐 token 解码不错幸免上文所述的荫藏数值问题。

结语
掩码扩散模子引入的"时候"主意可能不仅有害,反而有害(导致数值问题和毋庸要的复杂性)。
同期,其天然带有"扩散"两字,但与一语气空间上的扩散模子过火磋商算法关系不大,如在论文中,作家仿照扩散模子为掩码扩散模子征战了高阶采样算法,其并不如一语气空间中的加快成果显赫。
在实行中,使用掩码扩散模子、引入一语气时候磋商的老师 / 采样经由不详并毋庸要,浅薄的掩码模子(如 MaskGIT 过火变种)在主意上更精真金不怕火,完了上更褂讪,况且在表面上具有同等的后劲。
掩码模子当作自回来模子使用赶快 token 规矩和双向注见地机制的变种,雷同是基于似然的模子,不错当作建模龙套数据生成的另一种遴荐。
由于双向注见地和 KV cache 机制不兼容,掩码模子在长高下文的推理速率上相较自回来模子存在瓶颈。
近期责任通过在双向注见地和因果注见地机制之间插值、使用赶快规矩的自回来模子等设施使模子保抓双向感知才气的同期,推理速率向自回来模子围聚。
也有责任探究非掩码类型的龙套扩散模子与一语气空间扩散模子的表面磋商,其扩散机制愈加属实,而非如掩码扩散模子一样是无关紧要的噱头。
论文第一作家郑凯文为清华大学狡计机系三年龄博士生,在 ICML、NeurIPS、ICLR 发表扩散模子磋商一作 5 篇。著述通信作家为朱军教育,团结者张钦圣、陈永昕、毛含子为英伟达测度员,刘洺堉为英伟达副总裁与 Deep Imagination 测度组附近。
论文标题:
Masked Diffusion Models are Secretly Time-Agnostic Masked Models and Exploit Inaccurate Categorical Sampling
论文衔接:
https://arxiv.org/abs/2409.02908
论文博客:
https://zhengkw18.github.io/blog/2024/mdm/
一键三连「点赞」「转发」「贯注心」
接待在挑剔区留住你的思法!
— 完 —
学术投稿请于责任日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 表情主页衔接,以及磋商形状哦
咱们会(尽量)实时回应你

� � 点亮星标 � �
科技前沿进展逐日见开云体育
