多模态长篇故事生成系统
SEED-Story是一种基于大型语言模型的多模态故事生成系统。该系统能够根据初始图像和文本,生成包含连贯叙事和风格一致图像的长篇故事,最多可达25个多模态序列。研究团队同时发布了StoryStream数据集,用于多模态故事生成模型的训练和评估。SEED-Story在图像风格一致性、故事吸引力和文图一致性方面表现优异,为多模态AI创作提供了新的可能性。
我们推出了SEED-Story,这是一个基于SEED-X的多模态大语言模型,能够生成多模态长篇故事,包含丰富连贯的叙事文本和角色及风格一致的图像。 我们还发布了StoryStream,这是一个专门为训练和评估多模态故事生成而设计的大规模数据集。
<img src="https://yellow-cdn.veclightyear.com/835a84d5/f766a1a2-7133-4add-9d9c-c7f34448ae22.jpg" width="800" alt="Teaser image">SEED-Story是一个由多模态大语言模型驱动的系统,能够基于用户提供的图像和文本作为故事开头,生成多模态长篇故事。生成的故事包含丰富连贯的叙事文本,以及角色和风格一致的图像。尽管我们在训练时最多使用10个序列,但生成的故事可以延伸至25个多模态序列。
<img src="https://yellow-cdn.veclightyear.com/835a84d5/98f8b47d-7560-467e-bbbd-d4c206b2705d.jpg" width="800" alt="Teaser image">