视频生成的训练和推理成本较为高昂,对算力造成了较大挑战。根据FactorialFunds测算,训练成本方面,将DiT从图像生成扩展到视频生成时,计算需求显著增加,主要体现在视频的时间维度压缩、模型参数量增长和数据集规模增加等方面。DiT是Sora的技术基础,其最大模型DiT-XL具有6.75亿参数,训练总计算预算约为1021FLOPS,相当于1张H100运行12天。而Sora的训练计算预算范围被估算为1.1X1025FLOPS~2.7X1025FLOPS,大约需要4211至10528张H100运行1个月。而在推理成本方面,预估每张H100每小时生成5分钟视频,进一步凸显了视频生成模型在算力方面的巨大需求。