five

cn-judgment-docs

收藏
魔搭社区2025-09-16 更新2025-09-13 收录
下载链接:
https://modelscope.cn/datasets/qazwsxplkj/cn-judgment-docs
下载链接
链接失效反馈
官方服务:
资源简介:
# 中国裁判文书数据 数据集购自淘宝[中国裁判文书网现在全量裁判文书数据](https://item.taobao.com/item.htm?id=931320010030),为[马克数据网](https://www.macrodatas.cn/)整理的[中国裁判文书网](http://wenshu.court.gov.cn/)公开的裁判文书。 ## 文件介绍 <!-- * `raw/`:原始裁判文书数据,包含从 1985 年到 2021 年共 37 个 ZIP 压缩文件,总大小 ~94.3GB,总计 ~8506 万条数据 --> * `preprocessed/`:预处理后的民事案件判决裁判文书数据,包含从 2021 年 1 月到 10 月的共 10 个 CSV 文件,总大小 ~3.97 GiB,总计 ~171 万条数据,裁判文书全文的总长度(以 python 的 len() 函数测量的字符数)为 ~53.4 亿,平均长度为 3,120。 ## 数据预处理 对于原始数据压缩文件解压得到的 CSV 文件,在同一目录下执行脚本 [`preprocess.py`](./preprocessed/preprocess.py) 以进行数据预处理: ```bash python preprocess.py ``` 具体细节请查看代码,这里介绍主要步骤: 1. 删除"来源"列 2. 保留"案件类型编码"为 1(民事)的行 3. 保留"案件名称"中包含"判决书"的行 4. 删除"全文"中包含"撤诉"的行 5. 移除"全文"末尾的广告信息(马克数据网相关) 6. 将HTML实体编码替换为对应字符 7. 移除"全文"中的换行符 ## 数据条目 预处理后的数据文件的每一行是一条数据,对应一个民事案件判决书,以 CSV 格式存储,例如: ```csv 原始链接,案号,案件名称,法院,所属地区,案件类型,案件类型编码,审理程序,裁判日期,公开日期,当事人,案由,法律依据,全文 https://wenshu.court.gov.cn/website/wenshu/181107ANFZ0BXSK4/index.html?docId=5c883ca449a74442b32aad980189775a,(2021)新4002民初4743号,赵国成与矫磊本机动车交通事故责任纠纷一审民事判决书,伊宁市人民法院,伊宁市,民事案件,1,民事一审,2021-09-02,2021-09-03,赵国成;矫磊本,机动车交通事故责任纠纷,《中华人民共和国民事诉讼法》:第六十四条第一款;《中华人民共和国民事诉讼法》:第六十四条第二款;《中华人民共和国民事诉讼法》:第六十四条第三款;《中华人民共和国民事诉讼法》:第一百六十二条, 新疆维吾尔自治区伊宁市人民法院民事判决书(2021)新4002民初4743号 原告:赵国成,男,1963年4月19日出生,汉族,住新疆维吾尔自治区伊犁哈萨克自治州伊宁市。 被告:矫磊本,男,1988年11月12日出生,汉族,住新疆维吾尔自治区伊犁哈萨克自治州伊宁市。 原告赵国成与被告矫磊本机动车交通事故责任纠纷一案,本院于2021年9月1日立案后,依法适用简易程序,公开开庭进行了审理。原告赵国成、被告矫磊本到庭参加诉讼。本案现已审理终结。 赵国成向本院提出诉讼请求:被告支付修理费2433元,误工费4000元。事实和理由:2021年5月24日,被告碰撞我停放的车辆,给我造成损失。被告当时口头承诺给我支付误工费1000元,车辆维修费另行支付。 矫磊本辩称,与原告车辆发生碰撞属实,原告车辆系家用车,不存在误工费。原告主张修理费过高。我已给原告支付1000元,该款应从本案应付款中扣除。 本院经审理认定事实如下:对于当事人双方没有争议的事实,本院予以确认。2021年5月24日,被告矫磊本驾车与原告赵国成车辆发生碰撞,造成原告车辆受损。当日,被告支付原告1000元。原告受损车辆系家用车。 对于当事人双方争议的修理费,原告提交二张发票,拟证实支出修理费数额。被告质证称不认可。该证据本院予以认定。 通过举证质证查明,原告支出修理费2433元。 本院认为,原、被告车辆发生碰撞,造成原告车辆受损,被告因过错侵害原告民事权益造成损害,应依法承担民事赔偿责任。原告主张被告赔偿修理费2433元,扣除被告已付款1000元,被告应赔偿修理费1433元。被告辩解修理费过高,鉴于原告提供了规范的修车发票,被告无任何证据推翻发票,被告辩解过高本院不予采信。关于原告主张的误工费,原告车辆系家用车,原告主张修车期间误工费4000元无法律依据,本院不予支持。另原告主张事发当日被告支付的1000元系误工费,对此,被告不认可,原告未能提供任何证据证实其主张属实,本院不予支持。被告要求从本案应付款中扣除,本院予以采纳。 综上所述,依照《中华人民共和国民法典》第一千一百六十五条第一款、第一千一百八十四条,《中华人民共和国民事诉讼法》第六十四条、第一百六十二条规定,判决如下: 一、被告矫磊本于本判决生效后十日内支付原告赵国成修理费1433元; 二、驳回原告赵国成的其他诉讼请求。 如果未按本判决指定的期间履行给付金钱义务,应当依照《中华人民共和国民事诉讼法》第二百五十三条规定,加倍支付迟延履行期间的债务利息。 案件受理费减半交纳计25元,由被告矫磊本负担。 本判决为终审判决。 审 判 员 荆 霞 二〇二一年九月二日 书 记 员 唐灵语 ```

# China Judicial Documents Dataset This dataset was purchased from Taobao [Full Set of China Judicial Documents](https://item.taobao.com/item.htm?id=931320010030), and it is the judicial documents publicly available on [China Judgments Online](http://wenshu.court.gov.cn/) organized by [MacroData Network](https://www.macrodatas.cn/). ## File Introduction <!-- * `raw/`: Raw judicial documents, including 37 ZIP compressed files from 1985 to 2021, with a total size of ~94.3 GB and a total of ~85.06 million entries --> * `preprocessed/`: Preprocessed civil case judgment documents, including 10 CSV files covering January to October 2021, with a total size of ~3.97 GiB, containing ~1.71 million entries in total. The total character length of the full text of the judicial documents (measured by Python's `len()` function) is ~5.34 billion, with an average length of 3,120. ## Data Preprocessing For the CSV files extracted from the original compressed data packages, run the script [`preprocess.py`](./preprocessed/preprocess.py) in the same directory to perform data preprocessing: bash python preprocess.py For specific details, please refer to the code. The main steps are introduced below: 1. Remove the "Source" column 2. Retain rows where the "Case Type Code" is 1 (civil cases) 3. Retain rows where the "Case Name" contains "Judgment" 4. Remove rows where the "Full Text" contains "withdrawal of lawsuit" 5. Remove advertisement information (related to MacroData Network) at the end of the "Full Text" 6. Replace HTML entity codes with their corresponding characters 7. Remove line breaks in the "Full Text" ## Data Entries Each line in the preprocessed data file is an entry corresponding to a civil case judgment, stored in CSV format. An example is as follows: csv 原始链接,案号,案件名称,法院,所属地区,案件类型,案件类型编码,审理程序,裁判日期,公开日期,当事人,案由,法律依据,全文 https://wenshu.court.gov.cn/website/wenshu/181107ANFZ0BXSK4/index.html?docId=5c883ca449a74442b32aad980189775a,(2021)新4002民初4743号,赵国成与矫磊本机动车交通事故责任纠纷一审民事判决书,伊宁市人民法院,伊宁市,民事案件,1,民事一审,2021-09-02,2021-09-03,赵国成;矫磊本,机动车交通事故责任纠纷,《中华人民共和国民事诉讼法》:第六十四条第一款;《中华人民共和国民事诉讼法》:第六十四条第二款;《中华人民共和国民事诉讼法》:第六十四条第三款;《中华人民共和国民事诉讼法》:第一百六十二条, 新疆维吾尔自治区伊宁市人民法院民事判决书(2021)新4002民初4743号 原告:赵国成,男,1963年4月19日出生,汉族,住新疆维吾尔自治区伊犁哈萨克自治州伊宁市。 被告:矫磊本,男,1988年11月12日出生,汉族,住新疆维吾尔自治区伊犁哈萨克自治州伊宁市。 原告赵国成与被告矫磊本机动车交通事故责任纠纷一案,本院于2021年9月1日立案后,依法适用简易程序,公开开庭进行了审理。原告赵国成、被告矫磊本到庭参加诉讼。本案现已审理终结。 赵国成向本院提出诉讼请求:被告支付修理费2433元,误工费4000元。事实和理由:2021年5月24日,被告碰撞我停放的车辆,给我造成损失。被告当时口头承诺给我支付误工费1000元,车辆维修费另行支付。 矫磊本辩称,与原告车辆发生碰撞属实,原告车辆系家用车,不存在误工费。原告主张修理费过高。我已给原告支付1000元,该款应从本案应付款中扣除。 本院经审理认定事实如下:对于当事人双方没有争议的事实,本院予以确认。2021年5月24日,被告矫磊本驾车与原告赵国成车辆发生碰撞,造成原告车辆受损。当日,被告支付原告1000元。原告受损车辆系家用车。 对于当事人双方争议的修理费,原告提交二张发票,拟证实支出修理费数额。被告质证称不认可。该证据本院予以认定。 通过举证质证查明,原告支出修理费2433元。 本院认为,原、被告车辆发生碰撞,造成原告车辆受损,被告因过错侵害原告民事权益造成损害,应依法承担民事赔偿责任。原告主张被告赔偿修理费2433元,扣除被告已付款1000元,被告应赔偿修理费1433元。被告辩解修理费过高,鉴于原告提供了规范的修车发票,被告无任何证据推翻发票,被告辩解过高本院不予采信。关于原告主张的误工费,原告车辆系家用车,原告主张修车期间误工费4000元无法律依据,本院不予支持。另原告主张事发当日被告支付的1000元系误工费,对此,被告不认可,原告未能提供任何证据证实其主张属实,本院不予支持。被告要求从本案应付款中扣除,本院予以采纳。 综上所述,依照《中华人民共和国民法典》第一千一百六十五条第一款、第一千一百八十四条,《中华人民共和国民事诉讼法》第六十四条、第一百六十二条规定,判决如下: 一、被告矫磊本于本判决生效后十日内支付原告赵国成修理费1433元; 二、驳回原告赵国成的其他诉讼请求。 如果未按本判决指定的期间履行给付金钱义务,应当依照《中华人民共和国民事诉讼法》第二百五十三条规定,加倍支付迟延履行期间的债务利息。 案件受理费减半交纳计25元,由被告矫磊本负担。 本判决为终审判决。 审 判 员 荆 霞 二〇二一年九月二日 书 记 员 唐灵语
提供机构:
maas
创建时间:
2025-09-12
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集包含2021年中国民事法院判决文书,经过预处理后形成约1.71百万条记录,总字符数约53.4亿,平均每条判决3120字符,适用于法律研究和自然语言处理任务。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作