基于 30B 的 Movie Gen Video 模型,Meta 将参考人像、个性化文本作为输入,实现了个性化视频(PT2V)输出。Meta 从已训练好的 T2V Movie Gen Video 参数作为初始化权重,在微调当中使用视觉标记串联,使其集成到一个统一的框架中,从而允许扩展模型大小。使用可训练的长提示 MetaCLIP 视觉编码器从人脸图像中提取身份特征,然后使用投影层将其与文本特征维度对齐,进而输入到Transformer 的交叉注意力模块进行训练。黄色模块表示冻结层,采用已训练好的参数,绿色表示可训练模块。训练策略包括 PT2V 预训练阶段,然后是 PT2V 高质量的微调。