中国团队成功构建全球首个图文音三模态预训练模型