CharacterGLM-6B

CharacterGLM-6B

新一代中文AI角色对话模型

CharacterGLM-6B是聆心智能与清华大学CoAI实验室联合开发的新一代对话模型。基于ChatGLM2系列,该模型通过独特的属性和行为设计,实现AI角色的一致性、拟人化和吸引力。在多项评估中,CharacterGLM-6B展现出优于主流大语言模型的性能,尤其在角色扮演和对话能力方面表现突出。这一开源项目为研究人员和开发者提供了创建个性化AI角色的有力工具,推动对话AI技术的进步。

CharacterGLM-6B对话预训练模型角色扮演人工智能自然语言处理Github开源项目

CharacterGLM-6B

<div align="center"> <img src=resources/CharacterGLM-logo.png width="40%"/> </div> <br> <p align="center"> 🤗 <a href="https://huggingface.co/thu-coai/CharacterGLM-6B" target="_blank">HF 仓库</a> • 📃 <a href="https://arxiv.org/abs/2311.16832" target="_blank">CharacterGLM 论文</a><br> </p> <p align="center"> 👋 加入我们的 <a href="resources/wechat.md" target="_blank">微信</a> </p> <p align="center"> 📍在 <a href="https://open.bigmodel.cn/dev/api#super-humanoid">开放平台</a> 体验更大规模的 CharacterGLM 模型。 </p>

阅读英文版。

体验更强的能力

如果你想使用更大参数量的 CharacterGLM 模型,可以在 开放平台 体验更大规模的 CharacterGLM 模型。 API版本 具有更多角色,更强的情景带入能力,更加完善的法律,道德规范,具备产品能力,方便开发者进行更深度的情景模拟和产品开发。

开源模型不具备商用能力,仅供学术研究使用,不可用于任何商业和传播用途

📔 更为详细的使用信息,可以参考:CharacterGLM-6B 技术文档

介绍

CharacterGLM-6B 是 聆心智能和清华大学 CoAI 实验室联合发布的新一代对话预训练模型。CharacterGLM-6B 是 基于 ChatGLM2 系列中的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上,CharacterGLM-6B 的设计遵循以下原则:

AI角色变"活"的强心针

一个对话式的AI角色要想表现得像一个栩栩如生的人,必定需要具备"人的特质",特别是人在语言表达中的文本形式的特征。我们将人的语言表达特征的重点落实在属性和行为上:属性主要影响语言表达的内容,行为则影响语言表达的风格和口吻。

属性: CharacterGLM的设计主要考虑了七种属性,包括身份、兴趣、观点、经历、成就、社交关系和其他。

行为: 行为主要由一些动态的元素组成:语言特征、情感表达和互动模式。例如,老年人更倾向于使用一些更正式的语言,而青少年则更喜欢用网络流行语。CharacterGLM则主要考虑了语言学特征和性格作为行为方面的设计。

AI角色是否"活"的照妖镜

一个对话式的AI角色要想证明自己是一个栩栩如生的角色,需要具备真实的人所具备的表达特质。我们主要关注三个方面的表达特质:一致性、拟人化和吸引力。

一致性: 角色一致性是角色在交互期间展现稳定的属性和行为的能力。维持一个会话式AI角色在对话中属性和行为的一致对于赢得用户的满足和信任是至关重要的。

拟人化: 角色拟人化要求角色在与用户的交互中表现自然,类似人与人之间的自然交互。类人的会话式AI角色对于提高用户的接受度以及促进更自然和有吸引力的对话是不可或缺的。

吸引力: 吸引力是会话式AI角色引起用户兴趣以及促进用户参与的衡量依据。聊天过程中,让对话有趣,让人想聊下去会直接影响用户的体验,这也是对话模型整体性能的一个体现。

对话示例

<div align="center"> <img src=resources/intro-case.png width="80%"/> </div>

方法

依据上面的设计原则,我们收集了包含属性和行为的角色描述,并众包构建了一个大规模高质量的对话数据集,并将角色描述转化为了自然语言提示,进而使用从6B到66B参数的ChatGLM模型进行微调来打造CharacterGLM。此外,还收集了一部分线上交互数据来增强 CharacterGLM 的训练,以实现CharacterGLM的自我完善式迭代。

<div align="center"> <img src=resources/framework.png width="80%"/> </div>

CharacterGLM-6B 开源模型旨在与开源社区一起推动大模型技术发展,恳请开发者和大家遵守 开源协议, 勿将开源模型和代码及基于开源项目产生的衍生物用于任何可能给国家和社会带来危害的用途以及用于任何未经过安全评估和备案的服务。 目前,本项目我们未基于 CharacterGLM-6B 开源模型 开发任何应用,包括网页端、安卓、苹果 iOS 及 Windows App 等应用。 由于 CharacterGLM-6B 模型规模较小,且模型受概率随机性因素影响,无法保证输出内容的准确。同时模型的输出容易被用户的输入误导。 本项目不承担开源模型和代码导致的数据安全、舆情风险或发生任何模型被误导、滥用、传播、不当利用而产生的风险和责任。

实验

评估标准

除了一致性(Consistency)、拟人化(Human-likeness)和吸引力(Engagement),我们使用:(1)质量(Quality)来评估回复的流畅度和上下文连贯性,(2)安全性(Safety)衡量回复是否符合道德标准,(3)正确性(Correctness)确定回复是否存在幻觉。此外,使用"整体(Overall)"指标来衡量模型回复的整体质量。

评估设置

我们将 CharacterGLM 与10个中文友好的主流 LLM 进行对比,雇佣了10个标注人员,每个标注人员在11个模型上各创建两个角色,并进行不少于20轮的对话交互。交互完成后,标注人员依据上述6个子维度和整体维度进行1-5分的打分,分值越高表示模型性能越好,最后计算每个模型在各个维度上的平均分。

<div align="center"> <img src=resources/characterglm-baseline.png width="80%"/> </div>

评估结果

<div align="center"> <img src=resources/characterglm-experiments-1.png width="80%"/> </div>

错误分析

我们对11个模型每个轮次的回复进一步标注了六个方面:角色不一致(OOC)、矛盾(Contradiction)、重复(Repetition)、低质量(Less-quality)、低信息量(Less-information)和主动性(Proactivity,主动引导话题并推动对话发展的能力)。此外,"整体(Overall)"分数的计算方式为前五个维度的总和减去第六个维度,"整体"得分越低表示性能越好。

<div align="center"> <img src=resources/characterglm-experiments-2.png width="80%"/> </div>

结果如上表所示,CharacterGLM的整体回答质量明显优于基准模型。虽然 CharacterGLM-66B 在大多数维度上并未达到最佳性能,但整体得分最佳。此外,尽管CharacterGLM在主动性方面的表现不够出色,但从下表示例中可以看到模型具备推动情节发展的能力,这在吸引用户并保持他们对话的兴趣中发挥了关键作用。

<div align="center"> <img src=resources/case.png width="80%"/> </div>

对比式评估

我们将 CharacterGLM 与专门用于角色扮演的 MiniMax 模型以及 GPT-3.5 和 GPT-4进行了对比式的评估。该评估仍采用交互式人工评估,共涉及24个角色,涵盖名人类、日常生活类、游戏影音类以及虚拟恋爱类角色,对话主题限制在闲聊、访谈和恋爱三种场景。同样地,这里雇佣了10个标注人员与模型进行交互,并标记两个模型在相同上下文下的两个输出为胜(win)/平(tie)/负(lose),最终计算每个模型在不同角色类别和对话主题下的胜/平/负比率。

按角色类别评估的结果如下表所示,CharacterGLM-66B在大多数角色类别中始终优于GPT-3.5和MiniMax。

<div align="center"> <img src=resources/characterglm-experiments-3.png width="80%"/> </div>

按对话主题评估的结果如下表所示,CharacterGLM-66B在闲聊和恋爱场景中与MiniMax表现相当,但在访谈场景中CharacterGLM-66B以显著的7%优势胜过MiniMax。CharacterGLM-66B稍逊GPT-4,但与GPT-3.5相比,CharacterGLM-66B在所有对话主题中都具有优势。

<div align="center"> <img src=resources/characterglm-experiments-4.png width="80%"/> </div>

使用方式

环境安装

首先需要下载本仓库:

git clone https://github.com/thu-coai/CharacterGLM-6B cd CharacterGLM-6b

然后使用pip安装依赖:

pip install -r requirements.txt
  • transformers库版本应该为4.36.2及以上版本,torch库版本应为2.1.0及以上版本,以获得最佳的推理性能。
  • 为了保证torch的版本正确,请严格按照官方文档的说明安装。

从本地加载模型

自动下载模型实现和参数。完整的模型实现在Hugging Face Hub。如果你的网络环境较差,下载模型参数可能会花费较长时间甚至失败。此时可以先将模型下载到本地,然后从本地加载。

从Hugging Face Hub下载模型需要先安装Git LFS,然后运行

git lfs install git clone https://huggingface.co/thu-coai/CharacterGLM-6B

网页版对话Demo

可以通过以下命令启动基于Streamlit的网页版demo

一定要进入文件夹运行,防止出现无法找到character.json的问题

cd basic_demo streamlit run web_demo_streamlit.py

网页版demo会运行一个Web Server,并输出地址。在浏览器中打开输出的地址即可使用。经测试,基于Streamlit的网页版Demo会更流畅。

命令行对话Demo

运行仓库中cli_demo.py

python basic_demo/cli_demo.py

程序会在命令行中进行交互式的对话,在命令行中输入指示并回车即可生成回复,输入clear可以清空对话历史,输入stop终止程序。

模型微调

我们暂时还没有提供模型微调的脚本,我们将尽快推出,敬请期待。

引用

如果你觉得我们的工作有帮助的话,请考虑引用下列论文。

@article{zhou2023characterglm,
  title={CharacterGLM: Customizing Chinese Conversational AI Characters with Large Language Models},
  author={Zhou, Jinfeng and Chen, Zhuang and Wan, Dazhen and Wen, Bosi and Song, Yi and Yu, Jifan and Huang, Yongkang and Peng, Libiao and Yang, Jiaming and Xiao, Xiyao and others},
  journal={arXiv preprint arXiv:2311.16832},
  year={2023}
}

编辑推荐精选

讯飞智文

讯飞智文

一键生成PPT和Word,让学习生活更轻松

讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。

热门AI工具AI办公办公工具讯飞智文AI在线生成PPTAI撰写助手多语种文档生成AI自动配图
讯飞星火

讯飞星火

深度推理能力全新升级,全面对标OpenAI o1

科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。

模型训练热门AI工具内容创作智能问答AI开发讯飞星火大模型多语种支持智慧生活
Spark-TTS

Spark-TTS

一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型

Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。

Trae

Trae

字节跳动发布的AI编程神器IDE

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

热门AI工具生产力协作转型TraeAI IDE
咔片PPT

咔片PPT

AI助力,做PPT更简单!

咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。

讯飞绘文

讯飞绘文

选题、配图、成文,一站式创作,让内容运营更高效

讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。

AI助手热门AI工具AI创作AI辅助写作讯飞绘文内容运营个性化文章多平台分发
材料星

材料星

专业的AI公文写作平台,公文写作神器

AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。

openai-agents-python

openai-agents-python

OpenAI Agents SDK,助力开发者便捷使用 OpenAI 相关功能。

openai-agents-python 是 OpenAI 推出的一款强大 Python SDK,它为开发者提供了与 OpenAI 模型交互的高效工具,支持工具调用、结果处理、追踪等功能,涵盖多种应用场景,如研究助手、财务研究等,能显著提升开发效率,让开发者更轻松地利用 OpenAI 的技术优势。

Hunyuan3D-2

Hunyuan3D-2

高分辨率纹理 3D 资产生成

Hunyuan3D-2 是腾讯开发的用于 3D 资产生成的强大工具,支持从文本描述、单张图片或多视角图片生成 3D 模型,具备快速形状生成能力,可生成带纹理的高质量 3D 模型,适用于多个领域,为 3D 创作提供了高效解决方案。

3FS

3FS

一个具备存储、管理和客户端操作等多种功能的分布式文件系统相关项目。

3FS 是一个功能强大的分布式文件系统项目,涵盖了存储引擎、元数据管理、客户端工具等多个模块。它支持多种文件操作,如创建文件和目录、设置布局等,同时具备高效的事件循环、节点选择和协程池管理等特性。适用于需要大规模数据存储和管理的场景,能够提高系统的性能和可靠性,是分布式存储领域的优质解决方案。

下拉加载更多