FunASR是一个开源的端到端语音识别工具包,旨在搭建学术研究与工业应用之间的桥梁。它提供了多种语音处理功能,包括语音识别、语音活动检测、标点恢复等,并支持预训练模型的推理和微调。
ThemeStation是一个创新的3D-to-3D生成模型,可以从少量3D样本生成主题一致且多样化的3D资产。本文详细介绍了ThemeStation的工作原理、技术创新点以及应用前景。
VGen是由阿里巴巴达摩院开发的先进视频生成生态系统,集成了多种最新的视频生成模型和技术,为研究人员和开发者提供了一个强大而灵活的工具包。
LGM是一种创新的大规模多视角高斯模型,可以从单一图像或文本提示生成高质量的3D内容。它结合了高斯溅射和扩散模型的优势,实现了高分辨率、高保真度的3D内容创作。
VideoComposer是一种创新的视频生成模型,能够让用户灵活控制合成视频的空间和时间模式。本文深入介绍了VideoComposer的工作原理、应用场景和最新进展。
UniAnimate是一个创新的AI框架,通过整合统一的视频扩散模型,实现了高效、长时间的人像视频生成。它解决了现有方法的局限性,为人像动画领域带来了新的可能性。
3DTopia是一个创新的两阶段文本到三维内容生成系统,能在5分钟内生成高质量的通用3D资产,为3D内容创作提供了全新的可能性。
groundingLMM是首个能够生成与对象分割掩码无缝集成的自然语言响应的多模态模型,开创了视觉-语言交互的新范式。
InFusion是一种创新的3D场景修复方法,通过学习深度图补全来实现3D高斯体的修复。本文详细介绍了InFusion的工作原理、主要步骤以及在各种复杂场景中的应用效果。
本文深入解析了上海交通大学开源的《动手学大模型》系列教程,全面介绍了大语言模型的微调、部署、提示工程、知识编辑等关键技术,为读者提供了一份全面的大模型入门指南。
Cones-V2是一种创新的图像合成方法,能够实现多个自定义主体的灵活组合与布局控制,为个性化AI图像生成开辟了新的可能性。
FlashFace是一项创新的人工智能技术,它能在几秒钟内实现高质量的人像个性化定制,展现出卓越的身份保真度和语言提示跟随能力,为人工智能图像生成领域带来了新的可能性。
Ranni是一个创新的文本到图像生成系统,通过结合大语言模型和扩散模型,实现了更准确的指令理解和图像生成。本文将详细介绍Ranni的原理、特点及应用前景。
DreamTalk是一个基于扩散模型的音频驱动的富有表现力的说话人头生成框架,能够在不同说话风格下生成高质量的说话人头视频。本文详细介绍了DreamTalk的工作原理、主要组件和应用场景,展示了其在多样化输入下的强大性能。
AnyDoor是一种创新的人工智能模型,可以实现零样本对象级图像定制。它能够将目标对象无缝地移植到新场景中,为图像编辑和生成领域带来了革命性的突破。本文深入解析AnyDoor的核心技术和应用前景。
本文对检索增强生成(RAG)技术进行了全面的综述,涵盖了RAG的基础、增强方法和应用领域,系统梳理了该领域的最新进展和未来发展方向。
Prompt-to-Prompt是由Google研究人员开发的一种新型文本引导图像编辑技术,它能够通过修改文本提示来直观地编辑由扩散模型生成的图像,为AI图像生成和编辑领域带来了新的可能性。
Seal是一种新型的自监督学习框架,能够利用现成的视觉基础模型知识来分割各种汽车点云序列。该框架具有可扩展性、一致性和泛化性,在多个点云数据集上取得了优异的性能。
对比自监督学习作为一种无需标注数据的表示学习方法,在近年来取得了巨大突破,本文全面介绍了这一领域的发展历程、关键技术和最新进展。
AnimateLCM是一项基于一致性模型的创新技术,能够在仅需4步的情况下生成高质量动画,大大提高了视频生成的效率和质量。本文将深入探讨AnimateLCM的工作原理、应用场景以及其对AI视频生成领域的重大影响。