阿里达摩院低调上线文本生成视频大模型：仅支持英文输入，已开放试玩-先驱网

感谢IT之家网友大眼夹、打工轨道人、航空先生的线索投递！

，近日，阿里达摩院已在 AI 模型社区“魔搭”ModelScope 上线了“文本生成视频大模型”。

根据官方介绍，目前文本生成视频大模型，由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这 3 个子网络组成，整体模型参数约 17 亿，目前仅支持英文输入。扩散模型采用 Unet3D 结构，通过从纯高斯噪声视频中，迭代去噪的过程，实现视频生成的功能。

官方介绍称，本模型适用范围较广，能基于任意英文文本描述进行推理，生成视频。一些文本生成视频示例如下:

A giraffe underneath a microwave.

A goldendoodle playing in a park by a lake.

据IT之家了解，模型已经在创空间和 huggingface 上线，可以直接体验，也可以参考该页面自行搭建。模型需要硬件配置大约是 16GB 内存和 16GB GPU 显存。在 ModelScope 框架下，通过调用简单的 Pipeline 即可使用当前模型，其中，输入需为字典格式，合法键值为 'text'，内容为一小段文本。该模型暂仅支持在 GPU 上进行推理。

从试玩的结果来看，目前能生成的视频长度多在 2-4 秒，生成等候时间从 20 多秒到 1 分多钟不等。

声明：本网转发此文章，旨在为读者提供更多信息资讯，所涉内容不构成投资、消费建议。文章事实如有疑问，请与有关方核实，文章观点非本网观点，仅供读者参考。

首页

阿里达摩院低调上线文本生成视频大模型：仅支持英文输入，已开放试玩

相关阅读

机械革命预热新款无界14轻薄本，搭载R77735H

科技优势打响森林经济品牌

首个国产“人工肺”获批上市

能纠错且相干超2秒的量子存储器面世

圆满收官！长征火箭年飞53次创纪录

反浪费也是技术活，“打菜神器”来了！

MINISFORUMUM773Lite迷你主机开售：搭载R77735HS

五菱菱度绝影电摩上市：160km续航，5999起

战略定位咨询—撷取思想伟力，擘画品牌增长力新征程

RedmiNote12S手机通过IMDA认证，将采用HelioG96处理

慢新闻

娱乐

新闻推荐