在人工智能快速发展的今天,大语言模型(Large Language Models, LLMs)展现出了惊人的能力,可以完成各种复杂的语言任务。然而,当遇到需要处理图像、音频、视频等多模态数据的实际应用场景时,LLMs往往显得力不从心。为了解决这一问题,研究人员开发出了一个名为ControlLLM的创新框架,它能够让LLMs熟练地使用各种多模态工具来解决复杂的现实世界任务。
ControlLLM框架的核心思想是通过图搜索的方式来增强LLMs使用工具的能力。它主要包含三个关键组件:
任务分解器(Task Decomposer): 将复杂的任务拆分成明确定义输入和输出的子任务。
图上思维(Thoughts-on-Graph, ToG)范式: 在预先构建的工具图上搜索最优解决方案路径。这个工具图定义了不同工具之间的参数和依赖关系。
执行引擎和丰富的工具箱: 解释解决方案路径并在不同的计算设备上高效运行工具。
通过这种设计,ControlLLM成功地解决了LLMs在使用工具时面临的几个主要挑战:
ControlLLM框架具有以下主要特性,使其在处理多模态任务时表现出色: