Flow Matching and Diffusion Models

1. 概述

生成模型:

  • 对象建模为向量 xRdx∈\mathbb{R}^d
  • 生成即采样 pdata(x)p_{\mathrm{data}}(x)
  • 数据集 z1,z2,...,zn  pdataz_1,z_2,...,z_n~\sim~p_{\mathrm{data}}
  • 条件生成 pdata(y)p_{\mathrm{data}}(\cdot|y)

目标:
从易于采样的 pinitp_{\mathrm{init}} (通常 N(0,Id)\sim \mathcal{N}(0,I_d) )出发,通过模型转化为 pdatap_{\mathrm{data}}

阅读更多

梯度上升与朗之万动力学采样

在生成模型中,如果我们只利用梯度信息 logp(x)\nabla \log p(x) ,就像是在绝对零度( T=0T=0 )下寻找能量最低点,最终只能得到单一的“极值”;而真实的生成过程(采样)应当像常温( T>0T>0 )下的气体分子,既受势能引导,又保持热运动。

阅读更多

变分自编码器(Variational Autoencoders,VAE)原理

1. 简介

变分自编码器 (Variational Autoencoder, VAE) 是一种生成模型 (Generative Model),由 Kingma 和 Welling 于 2013 年提出。它巧妙地结合了深度学习(神经网络的拟合能力)和贝叶斯推断(概率统计理论)。

为什么我们需要 VAE?

普通的自编码器 (AE) 虽然能很好地进行数据压缩和特征提取,但在生成新数据方面存在缺陷:

  • AE 的局限性:AE 将输入映射为隐空间中一个固定的点(确定性映射)。其隐空间往往是不连续的(过拟合),这意味着如果你在隐空间中随机取一个点进行解码,生成的图像很可能是毫无意义的噪声。
  • VAE 的改进:VAE 将输入映射为隐空间中的一个概率分布(通常是高斯分布,概率性映射)。

核心思想

VAE 不再让编码器输出一个具体的向量 zz ,而是输出该向量服从的分布参数(均值 μ\mu 和方差 σ2\sigma^2 )。

Input xEncoderDistributions (μ,σ)SamplezDecoderReconstruction x^\text{Input } x \xrightarrow{\text{Encoder}} \text{Distributions } (\mu, \sigma) \xrightarrow{\text{Sample}} z \xrightarrow{\text{Decoder}} \text{Reconstruction } \hat{x}

这种做法带来了两个核心优势:

  • 连续性 (Continuity):隐空间中相近的点解码出的结果也是相近的。
  • 完备性 (Completeness):隐空间中的点都能解码出有意义的结果(通过 KL 散度约束实现)。

这使得 VAE 具备了生成能力:我们可以直接从标准正态分布 N(0,1)\mathcal{N}(0,1) 中采样 zz ,然后通过解码器生成全新的样本。

阅读更多
Your browser is out-of-date!

Update your browser to view this website correctly.&npsb;Update my browser now

×