评估方法AI工具集 | 多种实用评估工具推荐

FreshLLMs: 利用搜索引擎增强刷新大型语言模型

FreshLLMs: 利用搜索引擎增强刷新大型语言模型

FreshLLMs是一种创新的方法,通过搜索引擎增强来刷新大型语言模型的知识,使其能够回答有关最新事件和快速变化信息的问题。本文介绍了FreshLLMs的核心组件,包括FreshQA数据集、FreshPrompt提示方法和FreshEval评估指标,并探讨了其在提升大型语言模型时效性和准确性方面的应用前景。

FreshLLMs大语言模型搜索引擎增强数据集评估方法Github开源项目
OmniEvent: 全面、统一和模块化的事件抽取工具包

OmniEvent: 全面、统一和模块化的事件抽取工具包

OmniEvent是一个功能强大的开源事件抽取工具包,支持事件检测和事件论元抽取任务,覆盖多种范式和模型,提供统一的评估框架,适用于中英文数据集。

OmniEvent事件抽取模型训练评估方法数据处理Github开源项目
rliable:提高强化学习和机器学习基准评估的可靠��性

rliable:提高强化学习和机器学习基准评估的可靠性

本文深入介绍了Google Research开发的rliable库,这是一个旨在提高强化学习和机器学习基准评估可靠性的开源工具。我们将探讨rliable的核心功能、使用方法以及它在解决现有评估方法局限性方面的创新。

rliable强化学习评估方法置信区间性能分析Github开源项目
TransferAttackEval:重新审视可迁移对抗性图像的研究

TransferAttackEval:重新审视可迁移对抗性图像的研究

深入探讨TransferAttackEval项目,解析其在可迁移对抗性图像研究中的创新方法与重要发现,为人工智能安全领域带来新的洞见。

对抗样本迁移攻击模型安全评估方法ImageNetGithub开源项目