大语言模型
MathVista是一个创新的基准测试项目,旨在评估人工智能模型在视觉环境下的数学推理能力。它结合了多模态数据集和全新任务,为人工智能在数学领域的发展提供了新的挑战和机遇。
CRUD-RAG是一个针对中文大语言模型检索增强生成系统的全面评估基准,涵盖了创建、读取、更新和删除四大类任务,为RAG系统的性能评估提供了新的视角和方法。