fuzi.mingcha

fuzi.mingcha

基于深度学习的中文司法大模型

夫子•明察是由山东大学、浪潮云和中国政法大学联合研发的中文司法大模型。基于ChatGLM,该模型通过海量司法语料和微调数据训练,具备法条检索、案例分析和三段论推理判决等功能。在LawBench评测中,夫子•明察在法律专精模型类别中表现优异。该模型旨在为法律从业者和普通用户提供权威、可靠的法律咨询和分析服务。

夫子明察司法大模型法律咨询人工智能ChatGLMGithub开源项目

夫子•明察司法大模型

<div align="center">

Generic badge license <br>

</div>

模型简介

夫子•明察司法大模型是由山东大学、浪潮云、中国政法大学联合研发,以 ChatGLM 为大模型底座,基于海量中文无监督司法语料(包括各类判决文书、法律法规等)与有监督司法微调数据(包括法律问答、类案检索)训练的中文司法大模型。该模型支持法条检索、案例分析、三段论推理判决以及司法对话等功能,旨在为用户提供全方位、高精准的法律咨询与解答服务。

夫子•明察司法大模型具备如下三大特色:

  • 基于法条检索回复 夫子•明察大模型能够结合相关法条进行回复生成。对于用户的咨询,夫子•明察大模型基于生成式检索范式先初步引用相关法条,再检索外部知识库对所引法条进行校验与确认,最终结合这些法条进行问题分析与回复生成。这保证生成的回复能够基于与问题相关的法律依据,并根据这些依据提供深入的分析和建议,使回复具有高权威性、高可靠性与高可信性。

  • 基于案例检索回复 夫子•明察大模型能够基于历史相似案例对输入案情进行分析。大模型能够生成与用户提供的案情相似的案情描述及判决结果,通过检索外部数据库得到真实的历史案例,并将这些相似的历史案例的信息用于辅助生成判决。生成的判决参考相关案例的法律依据,从而更加合理。用户可以对照相似案例,从而更好地理解潜在的法律风险。

  • 三段论推理判决 司法三段论,是把三段论的逻辑推理应用于司法实践的一种思维方式和方法。类比于三段论的结构特征,司法三段论就是法官在司法过程中将法律规范作为大前提,以案件事实为小前提,最终得出判决结果的一种推导方法。针对具体案件,夫子•明察大模型系统能够自动分析案情,识别关键的事实和法律法规,生成一个逻辑严谨的三段论式判决预测。这个功能不仅提供了对案件可能结果的有力洞察,还有助于帮助用户更好地理解案件的法律依据和潜在风险。

我们已将夫子•明察的模型权重上传至 HuggingFace/SDUIRLab,模型的使用方法见 #模型部署

公开评测效果

在 2023 年 9 月份由上海AI实验室联合南京大学推出的大语言模型司法能力评估体系LawBench中 (见下图),我们在法律专精模型 (Law Specific LLMs) 中 Zero-Shot 表现出色,取得了第一名,与未经法律专业知识训练的 ChatGLM 相比有了较大提升。

image

训练数据

夫子•明察司法大模型的训练数据可分为两大类别:中文无监督司法语料以及有监督司法微调数据。其中不仅涵盖法律法规、司法解释、判决文书等内容,同时还包括各类高质量司法任务数据集,例如法律问答、类案检索和三段论式法律判决。内容丰富、优质海量的训练数据,确保了对司法领域知识进行准确且全面的覆盖,为夫子•明察司法大模型提供坚实的知识基础。

以下为夫子·明察司法大模型增量预训练、指令微调过程中所使用数据的统计信息:

<table class="tg" style="undefined;table-layout: fixed; width: 800px"> <colgroup> <col style="width: 200px"> <col style="width: 200px"> <col style="width: 200px"> <col style="width: 200px"> </colgroup> <thead> <tr> <th class="tg-9wq8" rowspan="2"><br>类型</th> <th class="tg-9wq8" rowspan="2"><br>名称</th> <th class="tg-9wq8" rowspan="2"><br>来源</th> <th class="tg-9wq8" rowspan="2"><br>数量</th> </tr> <tr> </tr> </thead> <tbody> <tr> <td class="tg-9wq8" rowspan="2">中文无监督司法语料</td> <td class="tg-9wq8">法律法规</td> <td class="tg-c3ow">LawRefBook</td> <td class="tg-9wq8">3.22M</td> </tr> <tr> <td class="tg-9wq8">裁判文书</td> <td class="tg-9wq8">裁判文书网</td> <td class="tg-9wq8">23M</td> </tr> <tr> <td class="tg-c3ow" rowspan="7">中文有监督司法微调数据</td> <td class="tg-9wq8" rowspan="3">法条检索回复数据</td> <td class="tg-c3ow">自主构建</td> <td class="tg-9wq8">32k</td> </tr> <tr> <td class="tg-c3ow">Lawyer LLaMA</td> <td class="tg-9wq8">11k</td> </tr> <tr> <td class="tg-c3ow">lawGPT</td> <td class="tg-9wq8">35k</td> </tr> <tr> <td class="tg-9wq8" rowspan="2">案例检索回复数据</td> <td class="tg-c3ow">自主构建</td> <td class="tg-9wq8">15k</td> </tr> <tr> <td class="tg-c3ow">CAIL</td> <td class="tg-c3ow">10k</td> </tr> <tr> <td class="tg-9wq8" rowspan="1">三段论推理判决数据</td> <td class="tg-c3ow">自主构建</td> <td class="tg-9wq8">11k</td> </tr> <tr> <td class="tg-9wq8" rowspan="1">多轮法律对话数据</td> <td class="tg-c3ow">Hanfei</td> <td class="tg-9wq8">40k</td> </tr> <tr> <td class="tg-c3ow" rowspan="3">通用领域微调数据</td> <td class="tg-9wq8">Alpaca指令微调数据</td> <td class="tg-c3ow">Alpaca</td> <td class="tg-9wq8">100K </td> </tr> <tr> <td class="tg-9wq8">Belle指令微调数据</td> <td class="tg-c3ow">Belle</td> <td class="tg-9wq8">10k </td> </tr> <tr> <td class="tg-9wq8">OL-CC指令微调数据</td> <td class="tg-c3ow">智源</td> <td class="tg-9wq8">10K </td> </tr> </tbody> </table>

以下部分自主构建的数据样例:

  • 法条检索回复数据
# 法条询问
{
    "instruction": "",
    "input": "中华人民共和国义务教育法的第三十条是什么?",
    "output": "中华人民共和国义务教育法的第三十条规定如下\n教师应当取得国家规定的教师资格。\n国家建立统一的义务教育教师职务制度。教师职务分为初级职务、中级职务和高级职务。\n"
},
# 法条补全
{
    "instruction": "请补充以下法条缺失部分",
    "input": "高等教育自学考试暂行条例第十七条规定:\n高等教育自学考试的命题由全国考委统筹安排,分别采取全国统一命题、区域命题、省级命题三种办法",
    "output": "逐步建立题库,实现必要的命题标准化。\n试题(包括副题)及参考答案、评分标准启用前属绝密材料。"
},
# 根据案情生成相关法条
{
    "instruction": "请根据基本案情,给出适用的法条。",
    "input": "基本案情:\n广东省鹤山市人民检察院指控被告人李某甲于2014年7月7日9时许,在鹤山市宅梧镇双和公路宅梧收费站附近路段被民警抓获。民警当场从李某甲身上搜获搜获白色晶体38小包。经鉴定,从李某甲处缴获的白色晶体净重12.9克,检出甲基苯丙胺成分。被告人李某甲到案后如实供述自己的罪行,可以从轻处罚。建议对被告人判处有期徒刑六个月至一年六个月,并处罚金。提请法院依法惩处。上述事实,被告人李某甲在开庭审理过程中亦无异议,并有抓获被告人及破案的经过材料、被告人的供述、证人李X锋的证言、扣押物品清单、鉴定意见、辨认笔录、现场勘某足以认定。",
    "output": "适用法条:\n 《中华人民共和国刑法》第三百四十八条 【非法持有毒品罪】,李某甲非法持有甲基苯丙胺十克以上不满五十克,罪名成立,应判处三年以下有期徒刑,并处罚金。"
},
# 根据案情结合相关法条进行分析
{
    "instruction": "请根据以下案情进行判决并结合相关法律进行分析",
    "input": "基本案情:\n通过A公司经营的旅游App预定境外客房,支付方式为“到店支付”,订单下单后即被从银行卡中扣除房款,后原告未入住。原告认为应当到店后付款,A公司先行违约,要求取消订单。A公司认为其已经在服务条款中就“到店支付”补充说明“部分酒店住宿可能会对您的银行卡预先收取全额预订费用”,不构成违约,拒绝退款。\n邬某将A公司起诉至法院,请求判令退还预扣的房款。\n",
    "output":

编辑推荐精选

Vora

Vora

免费创建高清无水印Sora视频

Vora是一个免费创建高清无水印Sora视频的AI工具

Refly.AI

Refly.AI

最适合小白的AI自动化工作流平台

无需编码,轻松生成可复用、可变现的AI自动化工作流

酷表ChatExcel

酷表ChatExcel

大模型驱动的Excel数据处理工具

基于大模型交互的表格处理系统,允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令,自动执行排序、公式计算和数据透视等操作,支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内,支持超过100万行数据的即时分析。

AI工具酷表ChatExcelAI智能客服AI营销产品使用教程
TRAE编程

TRAE编程

AI辅助编程,代码自动修复

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
AIWritePaper论文写作

AIWritePaper论文写作

AI论文写作指导平台

AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。

AI辅助写作AI工具AI论文工具论文写作智能生成大纲数据安全AI助手热门
博思AIPPT

博思AIPPT

AI一键生成PPT,就用博思AIPPT!

博思AIPPT,新一代的AI生成PPT平台,支持智能生成PPT、AI美化PPT、文本&链接生成PPT、导入Word/PDF/Markdown文档生成PPT等,内置海量精美PPT模板,涵盖商务、教育、科技等不同风格,同时针对每个页面提供多种版式,一键自适应切换,完美适配各种办公场景。

AI办公办公工具AI工具博思AIPPTAI生成PPT智能排版海量精品模板AI创作热门
潮际好麦

潮际好麦

AI赋能电商视觉革命,一站式智能商拍平台

潮际好麦深耕服装行业,是国内AI试衣效果最好的软件。使用先进AIGC能力为电商卖家批量提供优质的、低成本的商拍图。合作品牌有Shein、Lazada、安踏、百丽等65个国内外头部品牌,以及国内10万+淘宝、天猫、京东等主流平台的品牌商家,为卖家节省将近85%的出图成本,提升约3倍出图效率,让品牌能够快速上架。

iTerms

iTerms

企业专属的AI法律顾问

iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。

SimilarWeb流量提升

SimilarWeb流量提升

稳定高效的流量提升解决方案,助力品牌曝光

稳定高效的流量提升解决方案,助力品牌曝光

Sora2视频免费生成

Sora2视频免费生成

最新版Sora2模型免费使用,一键生成无水印视频

最新版Sora2模型免费使用,一键生成无水印视频

下拉加载更多