每经记者 黄婉银 每经编辑 张海妮
12月3日,腾讯混元大模型公布最新进展:正式上线视频生成能力,这是继文生文、文生图、3D生成之后的又一里程碑。与此同时,腾讯开源该视频生成大模型,参数量130亿,是当前最大的视频开源模型。
“用户只需要输入一段描述,即可生成视频。”腾讯混元相关负责人透露,目前的生成视频支持中英文双语输入、多种视频尺寸以及多种视频清晰度。目前该模型已上线腾讯元宝App,用户可在AI应用中的“AI视频”板块申请试用。企业客户通过腾讯云提供服务接入,目前API同步开放内测申请。
《每日经济新闻》记者从上述负责人处了解到,作为视频模型,腾讯混元团队当初在进行设计时,在动作流畅性和大幅度动作上花费了很多心思。另外,现在很多视频模型有个共同的问题就是在大幅运动的时候会出现画面抖动,这个难题也是当时其着力解决的事情。
“我们这次模型是全部开源的,遵从混元结构体系,希望丰富社区,我们的算法模型、加速工程都会开放给社区,包括之后的图声视频、驱动绑定和配乐都会按节奏去做开源。现在(AI)视频生成其实差距还比较大,特别是在文生视频领域,成熟度其实远没有到大家想象中那么高。”上述负责人告诉记者,一个月前就已经把视频生成模型训练完毕,现在对外发布也是水到渠成。
目前,腾讯宣布该视频生成大模型已在Hugging Face平台及Github上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费使用和开发生态插件。
自年初以来,腾讯混元系列模型的开源速度不断加快。此前,腾讯混元已经开源了旗下文生文、文生图和3D生成大模型。至此,腾讯混元系列大模型已实现全面开源。
上述负责人补充称,目前文生视频仍处于着重进行技术打磨的阶段。在此阶段推出相关成果,也是期望对外开源,希望与社区一起协作,促使这项技术早日达到像图像生成那样真正可用的状态,当下谈论商业化还为时过早。
(责任编辑:王治强 HF013)
0 条