Sora拥有全面的学习资源,可根据用户文本提示创建最长60秒的逼真视频。该模型深刻理解物体在物理世界中的存在方式,能深度模拟真实物理环境,生成包含多个角色和特定运动的复杂场景。它继承了DALL-E 3的画质和指令理解能力,可以准确理解用户提示中的需求。