跨模态检索指通过整合文本、图像、音频、视频等异构模态数据的语义关联,实现以一种模态为查询检索其他模态相关内容的技术,典型场景包括“文搜图”“图搜音频”“视频搜文本”等。该过程主要依赖“特征提取-模态对齐-相似度计算”三步核心原理:首先针对不同模态采用专属编码器提取特征,如用 CNN 提取图像视觉特征、用 WCNN 或 BERT提取文本语义特征、用梅尔频谱与 CNN 结合提取音频特征;随后通过联合嵌入技术将多模态特征映射至共享语义空间,早期方法如 DBRLM 模型通过双向结构强化匹配样本的相似度,现代大模型则借助对比学习实现更精准的跨模态对齐;最终通过余弦相似度等度量方式计算查询与候选样本的语义距离,返回关联度最高的结果。