fuzi.mingcha

fuzi.mingcha

基于深度学习的中文司法大模型

夫子•明察是由山东大学、浪潮云和中国政法大学联合研发的中文司法大模型。基于ChatGLM,该模型通过海量司法语料和微调数据训练,具备法条检索、案例分析和三段论推理判决等功能。在LawBench评测中,夫子•明察在法律专精模型类别中表现优异。该模型旨在为法律从业者和普通用户提供权威、可靠的法律咨询和分析服务。

夫子明察司法大模型法律咨询人工智能ChatGLMGithub开源项目

夫子•明察司法大模型

<div align="center">

Generic badge license <br>

</div>

模型简介

夫子•明察司法大模型是由山东大学、浪潮云、中国政法大学联合研发,以 ChatGLM 为大模型底座,基于海量中文无监督司法语料(包括各类判决文书、法律法规等)与有监督司法微调数据(包括法律问答、类案检索)训练的中文司法大模型。该模型支持法条检索、案例分析、三段论推理判决以及司法对话等功能,旨在为用户提供全方位、高精准的法律咨询与解答服务。

夫子•明察司法大模型具备如下三大特色:

  • 基于法条检索回复 夫子•明察大模型能够结合相关法条进行回复生成。对于用户的咨询,夫子•明察大模型基于生成式检索范式先初步引用相关法条,再检索外部知识库对所引法条进行校验与确认,最终结合这些法条进行问题分析与回复生成。这保证生成的回复能够基于与问题相关的法律依据,并根据这些依据提供深入的分析和建议,使回复具有高权威性、高可靠性与高可信性。

  • 基于案例检索回复 夫子•明察大模型能够基于历史相似案例对输入案情进行分析。大模型能够生成与用户提供的案情相似的案情描述及判决结果,通过检索外部数据库得到真实的历史案例,并将这些相似的历史案例的信息用于辅助生成判决。生成的判决参考相关案例的法律依据,从而更加合理。用户可以对照相似案例,从而更好地理解潜在的法律风险。

  • 三段论推理判决 司法三段论,是把三段论的逻辑推理应用于司法实践的一种思维方式和方法。类比于三段论的结构特征,司法三段论就是法官在司法过程中将法律规范作为大前提,以案件事实为小前提,最终得出判决结果的一种推导方法。针对具体案件,夫子•明察大模型系统能够自动分析案情,识别关键的事实和法律法规,生成一个逻辑严谨的三段论式判决预测。这个功能不仅提供了对案件可能结果的有力洞察,还有助于帮助用户更好地理解案件的法律依据和潜在风险。

我们已将夫子•明察的模型权重上传至 HuggingFace/SDUIRLab,模型的使用方法见 #模型部署

公开评测效果

在 2023 年 9 月份由上海AI实验室联合南京大学推出的大语言模型司法能力评估体系LawBench中 (见下图),我们在法律专精模型 (Law Specific LLMs) 中 Zero-Shot 表现出色,取得了第一名,与未经法律专业知识训练的 ChatGLM 相比有了较大提升。

image

训练数据

夫子•明察司法大模型的训练数据可分为两大类别:中文无监督司法语料以及有监督司法微调数据。其中不仅涵盖法律法规、司法解释、判决文书等内容,同时还包括各类高质量司法任务数据集,例如法律问答、类案检索和三段论式法律判决。内容丰富、优质海量的训练数据,确保了对司法领域知识进行准确且全面的覆盖,为夫子•明察司法大模型提供坚实的知识基础。

以下为夫子·明察司法大模型增量预训练、指令微调过程中所使用数据的统计信息:

<table class="tg" style="undefined;table-layout: fixed; width: 800px"> <colgroup> <col style="width: 200px"> <col style="width: 200px"> <col style="width: 200px"> <col style="width: 200px"> </colgroup> <thead> <tr> <th class="tg-9wq8" rowspan="2"><br>类型</th> <th class="tg-9wq8" rowspan="2"><br>名称</th> <th class="tg-9wq8" rowspan="2"><br>来源</th> <th class="tg-9wq8" rowspan="2"><br>数量</th> </tr> <tr> </tr> </thead> <tbody> <tr> <td class="tg-9wq8" rowspan="2">中文无监督司法语料</td> <td class="tg-9wq8">法律法规</td> <td class="tg-c3ow">LawRefBook</td> <td class="tg-9wq8">3.22M</td> </tr> <tr> <td class="tg-9wq8">裁判文书</td> <td class="tg-9wq8">裁判文书网</td> <td class="tg-9wq8">23M</td> </tr> <tr> <td class="tg-c3ow" rowspan="7">中文有监督司法微调数据</td> <td class="tg-9wq8" rowspan="3">法条检索回复数据</td> <td class="tg-c3ow">自主构建</td> <td class="tg-9wq8">32k</td> </tr> <tr> <td class="tg-c3ow">Lawyer LLaMA</td> <td class="tg-9wq8">11k</td> </tr> <tr> <td class="tg-c3ow">lawGPT</td> <td class="tg-9wq8">35k</td> </tr> <tr> <td class="tg-9wq8" rowspan="2">案例检索回复数据</td> <td class="tg-c3ow">自主构建</td> <td class="tg-9wq8">15k</td> </tr> <tr> <td class="tg-c3ow">CAIL</td> <td class="tg-c3ow">10k</td> </tr> <tr> <td class="tg-9wq8" rowspan="1">三段论推理判决数据</td> <td class="tg-c3ow">自主构建</td> <td class="tg-9wq8">11k</td> </tr> <tr> <td class="tg-9wq8" rowspan="1">多轮法律对话数据</td> <td class="tg-c3ow">Hanfei</td> <td class="tg-9wq8">40k</td> </tr> <tr> <td class="tg-c3ow" rowspan="3">通用领域微调数据</td> <td class="tg-9wq8">Alpaca指令微调数据</td> <td class="tg-c3ow">Alpaca</td> <td class="tg-9wq8">100K </td> </tr> <tr> <td class="tg-9wq8">Belle指令微调数据</td> <td class="tg-c3ow">Belle</td> <td class="tg-9wq8">10k </td> </tr> <tr> <td class="tg-9wq8">OL-CC指令微调数据</td> <td class="tg-c3ow">智源</td> <td class="tg-9wq8">10K </td> </tr> </tbody> </table>

以下部分自主构建的数据样例:

  • 法条检索回复数据
# 法条询问
{
    "instruction": "",
    "input": "中华人民共和国义务教育法的第三十条是什么?",
    "output": "中华人民共和国义务教育法的第三十条规定如下\n教师应当取得国家规定的教师资格。\n国家建立统一的义务教育教师职务制度。教师职务分为初级职务、中级职务和高级职务。\n"
},
# 法条补全
{
    "instruction": "请补充以下法条缺失部分",
    "input": "高等教育自学考试暂行条例第十七条规定:\n高等教育自学考试的命题由全国考委统筹安排,分别采取全国统一命题、区域命题、省级命题三种办法",
    "output": "逐步建立题库,实现必要的命题标准化。\n试题(包括副题)及参考答案、评分标准启用前属绝密材料。"
},
# 根据案情生成相关法条
{
    "instruction": "请根据基本案情,给出适用的法条。",
    "input": "基本案情:\n广东省鹤山市人民检察院指控被告人李某甲于2014年7月7日9时许,在鹤山市宅梧镇双和公路宅梧收费站附近路段被民警抓获。民警当场从李某甲身上搜获搜获白色晶体38小包。经鉴定,从李某甲处缴获的白色晶体净重12.9克,检出甲基苯丙胺成分。被告人李某甲到案后如实供述自己的罪行,可以从轻处罚。建议对被告人判处有期徒刑六个月至一年六个月,并处罚金。提请法院依法惩处。上述事实,被告人李某甲在开庭审理过程中亦无异议,并有抓获被告人及破案的经过材料、被告人的供述、证人李X锋的证言、扣押物品清单、鉴定意见、辨认笔录、现场勘某足以认定。",
    "output": "适用法条:\n 《中华人民共和国刑法》第三百四十八条 【非法持有毒品罪】,李某甲非法持有甲基苯丙胺十克以上不满五十克,罪名成立,应判处三年以下有期徒刑,并处罚金。"
},
# 根据案情结合相关法条进行分析
{
    "instruction": "请根据以下案情进行判决并结合相关法律进行分析",
    "input": "基本案情:\n通过A公司经营的旅游App预定境外客房,支付方式为“到店支付”,订单下单后即被从银行卡中扣除房款,后原告未入住。原告认为应当到店后付款,A公司先行违约,要求取消订单。A公司认为其已经在服务条款中就“到店支付”补充说明“部分酒店住宿可能会对您的银行卡预先收取全额预订费用”,不构成违约,拒绝退款。\n邬某将A公司起诉至法院,请求判令退还预扣的房款。\n",
    "output":

编辑推荐精选

讯飞智文

讯飞智文

一键生成PPT和Word,让学习生活更轻松

讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。

AI办公办公工具AI工具讯飞智文AI在线生成PPTAI撰写助手多语种文档生成AI自动配图热门
讯飞星火

讯飞星火

深度推理能力全新升级,全面对标OpenAI o1

科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。

热门AI开发模型训练AI工具讯飞星火大模型智能问答内容创作多语种支持智慧生活
Spark-TTS

Spark-TTS

一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型

Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。

Trae

Trae

字节跳动发布的AI编程神器IDE

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
咔片PPT

咔片PPT

AI助力,做PPT更简单!

咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。

讯飞绘文

讯飞绘文

选题、配图、成文,一站式创作,让内容运营更高效

讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。

热门AI辅助写作AI工具讯飞绘文内容运营AI创作个性化文章多平台分发AI助手
材料星

材料星

专业的AI公文写作平台,公文写作神器

AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。

openai-agents-python

openai-agents-python

OpenAI Agents SDK,助力开发者便捷使用 OpenAI 相关功能。

openai-agents-python 是 OpenAI 推出的一款强大 Python SDK,它为开发者提供了与 OpenAI 模型交互的高效工具,支持工具调用、结果处理、追踪等功能,涵盖多种应用场景,如研究助手、财务研究等,能显著提升开发效率,让开发者更轻松地利用 OpenAI 的技术优势。

Hunyuan3D-2

Hunyuan3D-2

高分辨率纹理 3D 资产生成

Hunyuan3D-2 是腾讯开发的用于 3D 资产生成的强大工具,支持从文本描述、单张图片或多视角图片生成 3D 模型,具备快速形状生成能力,可生成带纹理的高质量 3D 模型,适用于多个领域,为 3D 创作提供了高效解决方案。

3FS

3FS

一个具备存储、管理和客户端操作等多种功能的分布式文件系统相关项目。

3FS 是一个功能强大的分布式文件系统项目,涵盖了存储引擎、元数据管理、客户端工具等多个模块。它支持多种文件操作,如创建文件和目录、设置布局等,同时具备高效的事件循环、节点选择和协程池管理等特性。适用于需要大规模数据存储和管理的场景,能够提高系统的性能和可靠性,是分布式存储领域的优质解决方案。

下拉加载更多