“这个选题倒是有点意思啊?”一位坐在后排的老师点了点头,“很大胆的选题,看题目应该是偏理论研究。”

        “是啊,很久没看到过这样的毕业论文了,不愧是研一就能发NeurIPS还能申请提前毕业的学生。”

        还没开始讲,几位老师就小声讨论了一下,不过很快他们就停止了讨论,因为周昀开始了他的报告。

        “我的研究主要是多模态的语义对齐与融合,主要的想法是将多模态特征分布视为概率测度,

        利用OT框架实现对齐,具体包括分层OT来处理数据簇结构,以及OT变体来适应高维嵌入的性质。

        为了方便理解,我会模拟两类数据的对齐过程,分别是:视觉μ和语言ν。

        以下是其的基本原理.......

        然后,在对其阶段,我将视觉μ和语言ν分布建模为经验测度,通过Kantorovich双对偶形式求解Wasserstein距离:

        W(μ,ν)=sup_{f,g:f(x)+g(y)≤c(x,y)}∫fdμ+∫gdν,

        其中c(x,y)=||x-y||^2/2对应Brenier势的梯度映射

        内容未完,下一页继续阅读