psi

psi

开源框架助力多模态集成AI系统开发

Platform for Situated Intelligence (\psi)是一个开源框架,专注于多模态集成AI系统的开发和研究。它提供高性能基础设施处理多模态时序流数据,并配备数据可视化、标注和处理工具。\psi包含丰富的组件生态系统,支持各类传感器、处理技术和执行器。该框架适用于开发社交机器人、混合现实系统等应用,尤其擅长处理流式传感器数据、整合多种AI技术,并满足低延迟要求。

Platform for Situated Intelligence多模态系统流数据处理开源框架人工智能Github开源项目

情境智能平台

构建状态 加入Gitter聊天

情境智能平台(简称\psi,发音如希腊字母)是一个开放、可扩展的框架,用于多模态、集成式人工智能系统的开发和研究。例如多模态交互系统,如社交机器人和具身会话代理、混合现实系统、环境智能或智能空间应用等。本质上,任何处理流式传输、传感器数据(如音频、视频、深度等),结合多种人工智能技术,并在延迟约束下运行的应用都可以从该框架提供的便利中受益。

该框架提供:

  • 用于处理多模态、时间流数据的现代高性能基础设施
  • 一套用于多模态数据可视化、注释和处理的工具
  • 各种传感器、处理技术和执行器的组件生态系统
<br>

Psi概览

关于该框架的高级概述可在这篇博文中找到。包含简短介绍和如何使用\psi编程的教程的网络研讨会可在此在线视频中观看。关于该框架的深入描述可在这份技术报告中找到。

最新动态

2024年3月14日:除了下一个beta版本0.19之外,我们很高兴宣布发布一个名为情境交互指导监控和辅助(SIGMA)的新应用。SIGMA基于\psi构建,是一个基准原型和测试平台系统,旨在加速混合现实任务辅助代理的研究。它采用仅限研究的许可证,研究人员可以试验并在此原型基础上进行开发,以研究开发实时交互式混合现实代理所面临的诸多挑战。快来看看吧!

2022年12月8日:本周我们发布了beta版本0.18,继续完善对使用\psi构建混合现实应用的支持,并进一步发展PsiStudio的调试和可视化功能。

2022年4月21日:我们最近发布了beta版本0.17,其中包括对\psi混合现实支持的重要更新,包括一套用于将数据从HoloLens 2流式传输到单独PC进行数据收集和导出的工具。此版本还包括对可视化和PsiStudio的多项更新,增加了运行MaskRCNN模型的包装器,更新了Azure Kinect组件,以及一些运行时更新和各种其他错误修复。

2021年7月29日:查看这个新的示例应用,它展示了如何将\psi与Teams机器人架构集成,以开发可以参与实时会议的机器人!(请注意,尽管它托管在Microsoft Graph存储库中,但您应该在这里发布有关此示例的任何问题或问题)。

2021年5月2日:我们已经开放了存储库的讨论标签,并计划将其用作与社区其他成员联系的场所。请使用这些论坛提问分享想法和功能请求展示您使用\psi构建的酷炫组件或项目,并与其他社区成员进行互动。

2021年4月29日:感谢所有参加情境智能平台研讨会的人!在这次研讨会中,我们讨论了如何使用该框架加速您在多模态、集成式人工智能领域的工作的基础知识;展示了一些深入的教程、演示和新功能预览;还举办了一个关于如何建立和培养开源社区的有趣小组讨论。所有会议都已录制,您现在可以在活动网站上找到这些视频。

入门

\psi核心基础设施构建在.NET Standard上,因此可以在Windows和Linux上运行。一些组件和工具更具体,仅在其中一个操作系统上可用。您可以通过利用\psi NuGet包克隆并构建源代码来构建\psi应用程序。 简介。 要了解更多关于 \psi 及如何用它构建应用程序,我们建议您从简介教程开始,它将带您了解一些主要概念。它展示了如何创建一个简单的程序,描述了流的核心概念,并解释了如何转换、同步、可视化、持久化和从磁盘重放流。

视频网络研讨会。 如果您更喜欢通过观看关于框架的演示来入门,这个视频网络研讨会提供了30分钟的框架高级概述,随后是30分钟的实践编码环节,展示如何编写第一个简单的应用程序。或者,您可以观看这个演示,它是我们作为Tech Minutes系列的一部分,提供了一个较短(约13分钟)的高级概述。

示例。 如果您想直接从示例代码开始,我们提供了许多小型示例应用程序,其中几个有详细说明,解释了示例的构建方式并指向额外的文档。我们建议您从以下示例开始,按复杂度递增排列:

名称描述跨平台要求
HelloWorld <br> HelloWorld预览这个示例提供了创建\psi应用程序最简单的起点:它演示了如何创建和运行一个包含单个流的简单\psi管道。
SimpleVoiceActivityDetector <br> SimpleVAD预览这个示例从麦克风捕获音频并执行语音活动检测,即计算一个布尔信号,指示音频是否包含有声语音。麦克风
WebcamWithAudio for WindowsLinux <br> Webcam预览这个示例展示了如何显示来自摄像头的图像和来自麦克风的音频能量水平,并说明了流同步的基础知识。网络摄像头和麦克风
WhatIsThat <br> WhatIsThat预览这个示例实现了一个简单的应用程序,使用Azure Kinect传感器检测人指向的物体。仅WindowsAzure Kinect + 认知服务
HoloLensSample <br> HoloLens示例演示之一的可视化输出流预览gif这个示例演示了如何为HoloLens 2开发混合现实\psi应用程序。UWPHoloLens 2

文档。 \psi的文档可在GitHub项目wiki中找到。它包含许多额外资源,包括[教程](https://github.com/microsoft/psi/blob/master/ https://github.com/microsoft/psi/wiki/Tutorials)、其他[专门主题](https://github.com/microsoft/psi/blob/master/ https://github.com/microsoft/psi/wiki/Other-Topics),以及完整的[API参考](https://microsoft.github.io/psi/api/Microsoft.Psi.html),可以帮助您更多地了解该框架。

获取帮助

如果您发现了bug或想要请求新功能或额外文档,请在GitHub上提交问题。使用bug标签提交代表代码缺陷的问题,并提供足够的信息以重现该bug。使用feature request标签请求新功能,使用documentation标签请求额外文档。

请也使用讨论来提出一般问题,分享关于您可能感兴趣的新功能或应用程序的想法,展示您用\psi构建的精彩项目,并与其他社区成员互动。

贡献

我们期待与社区合作,改进和发展Platform for Situated Intelligence!我们欢迎各种形式的贡献:从简单地使用它并提交问题和bug,到编写和发布您自己的新组件,再到为bug修复或新功能创建拉取请求。wiki中的贡献指南页面描述了许多您可以参与的方式,以及在向代码库贡献之前需要了解的一些有用信息。 要了解有关我们未来计划的更多信息,请参阅路线图文档。

使用者

情境智能平台目前正在被多个行业和学术研究实验室使用,包括(但不限于):

如果您希望被添加到此列表中,只需提交一个GitHub问题并用whoisusing标签标记它。添加您希望我们链接到的研究实验室、网站或项目的网址。

技术报告

关于该框架更深入的描述可在此技术报告中找到。请按以下格式引用:

@misc{bohus2021platform, title={Platform for Situated Intelligence}, author={Dan Bohus and Sean Andrist and Ashley Feniello and Nick Saw and Mihai Jalobeanu and Patrick Sweeney and Anne Loomis Thompson and Eric Horvitz}, year={2021}, eprint={2103.15975}, archivePrefix={arXiv}, primaryClass={cs.AI} }

免责声明

代码库目前处于测试阶段,框架的各个方面正在积极开发中。代码中可能仍存在错误,我们可能会对API进行重大更改。

虽然情境智能平台的源代码和Microsoft.Psi.* NuGet包均采用MIT许可证,但我们的代码和NuGet包依赖于其他NuGet包。如果您使用情境智能平台构建应用程序,请检查解决方案中所有引用的NuGet包的许可要求。

许可证

情境智能平台采用MIT许可证,但Applications文件夹下的所有文件(包括SIGMA应用程序)除外,这些文件采用微软研究院许可协议发布。另请参阅第三方声明

商标

本项目可能包含项目、产品或服务的商标或标志。微软商标或标志的授权使用必须遵循微软商标和品牌指南。在本项目的修改版本中使用微软商标或标志不得引起混淆或暗示微软赞助。任何第三方商标或标志的使用均受这些第三方政策的约束。

致谢

我们要感谢我们的内部合作者和外部早期采用者,包括(但不限于):微软研究院的Daniel McDuffKael RowanLev NachmansonMike Barnett,卡内基梅隆大学MultiComp实验室的Chirag Raman和Louis-Phillipe Morency,以及博伊西州立大学SLIM研究小组和西北大学定性推理小组的研究人员。

编辑推荐精选

TRAE编程

TRAE编程

AI辅助编程,代码自动修复

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

热门AI工具生产力协作转型TraeAI IDE
蛙蛙写作

蛙蛙写作

AI小说写作助手,一站式润色、改写、扩写

蛙蛙写作—国内先进的AI写作平台,涵盖小说、学术、社交媒体等多场景。提供续写、改写、润色等功能,助力创作者高效优化写作流程。界面简洁,功能全面,适合各类写作者提升内容品质和工作效率。

AI助手AI工具AI写作工具AI辅助写作蛙蛙写作学术助手办公助手营销助手
问小白

问小白

全能AI智能助手,随时解答生活与工作的多样问题

问小白,由元石科技研发的AI智能助手,快速准确地解答各种生活和工作问题,包括但不限于搜索、规划和社交互动,帮助用户在日常生活中提高效率,轻松管理个人事务。

聊天机器人AI助手热门AI工具AI对话
Transly

Transly

实时语音翻译/同声传译工具

Transly是一个多场景的AI大语言模型驱动的同声传译、专业翻译助手,它拥有超精准的音频识别翻译能力,几乎零延迟的使用体验和支持多国语言可以让你带它走遍全球,无论你是留学生、商务人士、韩剧美剧爱好者,还是出国游玩、多国会议、跨国追星等等,都可以满足你所有需要同传的场景需求,线上线下通用,扫除语言障碍,让全世界的语言交流不再有国界。

讯飞智文

讯飞智文

一键生成PPT和Word,让学习生活更轻松

讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。

热门AI工具AI办公办公工具讯飞智文AI在线生成PPTAI撰写助手多语种文档生成AI自动配图
讯飞星火

讯飞星火

深度推理能力全新升级,全面对标OpenAI o1

科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。

模型训练热门AI工具内容创作智能问答AI开发讯飞星火大模型多语种支持智慧生活
Spark-TTS

Spark-TTS

一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型

Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。

咔片PPT

咔片PPT

AI助力,做PPT更简单!

咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。

讯飞绘文

讯飞绘文

选题、配图、成文,一站式创作,让内容运营更高效

讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。

AI助手热门AI工具AI创作AI辅助写作讯飞绘文内容运营个性化文章多平台分发
材料星

材料星

专业的AI公文写作平台,公文写作神器

AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。

下拉加载更多