但对于多模态语义对齐,我们需要同时考虑特征内容和关系结构,因此我采用了FGW,它结合了经典OT的内容传输和GW的结构匹配。”

        他说着走到讲台旁边,拉过一旁的白板,拿起笔开始边写边讲:“FGW的定义为:FGW_α(μ,ν,C_X,C_Y,D)=(1-α)OT(μ,ν,D)+αGW(μ,ν,C_X,C_Y),

        其中α∈[0,1]是融合参数,D是内容成本矩阵(如||x-y||^p),C_X和C_Y是各自模态的内部相似矩阵,

        在非欧几里得空间中,比如视觉嵌入的球面流形或语言的超双曲空间,我将度量泛化为Riemannian度量

        ......

        不知道这是否能解决您的第一个问题?”

        浙大老师点点头:“可以了。”

        周昀点点头,将白板上的内容擦去:“好,那接下来我回答您的第二个问题。”

        马克笔不断在白板上写下各种奇怪的符号,至少在一些旁听的老师和学生眼里是这样的。

        “对于高维嵌入的数值稳定性,维度灾难会导致C_X和C_Y的谱不稳定,我引入了谱正则化:对相似矩阵施加核范数罚项,min||C||*+λ||bsp;-K||F^2

        ......

        这样就能这确保了在噪声环境下,FGW的梯度下降不会发散,实验中在Image-1K上的鲁棒性提升了15%。”

        内容未完,下一页继续阅读