five

sunorme/court_debate_training_data

收藏
Hugging Face2026-03-22 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/sunorme/court_debate_training_data
下载链接
链接失效反馈
官方服务:
资源简介:
task_categories: • text-generation tags: • legal • agent • roleplay • court-debate pretty_name: MootAI Dataset Card for MootAI <!-- Provide a quick summary of the dataset. --> MootAI 是一个面向法律场景,特别是模拟法庭辩论的高质量对话数据集。该数据集旨在通过构建专业、结构化的多轮对话,训练或评估大语言模型在特定角色(如辩护人、公诉人、审判员)下的法律推理、论点构建和程序性语言表达能力。 Dataset Details Dataset Description <!-- Provide a longer summary of what this dataset is. --> MootAI 数据集包含了多个基于同一盗窃案件背景的模拟法庭辩论对话序列。每个对话样本均以一个详细的系统提示开始,定义了参与者的角色(辩护人、公诉人或审判员)、核心职责、策略重点和道德边界,并提供了完整的案件背景信息。随后,对话按照标准的法庭辩论程序展开,包含审判员的程序引导、公诉人的公诉意见、辩护人的辩护意见以及多轮的辩论交锋。数据集中展现了法律从业者如何基于事实、证据和法律条文,针对量刑情节(如累犯、自首、认罪认罚、退赔谅解等)进行专业辩论,语言风格严谨、规范,并符合各自角色的定位。 • Language(s) (NLP): 中文 (Chinese) Uses <!-- Address questions around how the dataset is intended to be used. --> Direct Use <!-- This section describes suitable use cases for the dataset. --> 此数据集可直接用于: 1. 训练或微调大语言模型,使其能够扮演特定法律角色,进行符合法律规范和程序的专业对话。 2. 评估模型在法律领域对话任务中的表现,包括角色一致性、法律知识应用、逻辑论证和程序遵循能力。 3. 作为法律教育或培训的辅助材料,用于模拟法庭辩论练习。 4. 为法律咨询、辩论模拟类AI应用提供高质量的对话数据基础。 Out-of-Scope Use <!-- This section addresses misuse, malicious use, and uses that the dataset will not work well for. --> 此数据集不适用于: 1. 替代真实的法律建议或法庭判决。数据集内容为模拟场景,不构成具有法律效力的意见。 2. 训练模型提供超出给定案件背景和角色的法律判断或建议。 3. 任何试图误导或歪曲司法程序的使用。 4. 未经充分验证和人工审核,直接用于自动化法律决策系统。 Dataset Structure <!-- This section provides a description of the dataset fields, and additional information about the dataset structure such as criteria used to create the splits, relationships between data points, etc. --> 数据集中的每个样本都是一个JSON对象,包含一个 messages 列表。列表中的每条消息包含以下字段: • role: 消息发出者的角色,包括 system, user, assistant。 • content: 消息的具体内容。其中 system 消息定义了任务、角色、案件背景和辩论要求;user 和 assistant 消息构成了连续的法庭辩论对话,内容前带有角色标记(如[审判员]、[公诉人]、[辩护人])。 数据集样例展示了基于同一案件的多轮辩论,每一轮都在前一轮的基础上增加了新的对话回合,模拟了辩论逐步深入的过程。对话严格按照法庭辩论的逻辑顺序展开。 Dataset Creation Curation Rationale <!-- Motivation for the creation of this dataset. --> 创建此数据集的目的是解决法律领域高质量、结构化对话数据的稀缺问题。通过模拟真实的法庭辩论场景,可以为AI模型提供学习法律专业语言、逻辑推理和角色扮演能力的优质语料,推动AI在法律教育、辅助培训和模拟实践中的应用。 Annotations [optional] <!-- If the dataset contains annotations which are not part of the initial data collection, use this section to describe them. --> 数据本身即为带有角色和任务标注的对话文本,无需额外标注。 Annotation process <!-- This section describes the annotation process such as annotation tools used in the process, the amount of data annotated, annotation guidelines provided to the annotators, interannotator statistics, annotation validation, etc. --> 不适用。数据是在创建时即按照既定结构和角色要求生成的。 Personal and Sensitive Information <!-- State whether the dataset contains data that might be considered personal, sensitive, or private (e.g., data that reveals addresses, uniquely identifiable names or aliases, racial or ethnic origins, sexual orientations, religious beliefs, political opinions, financial or health data, etc.). If efforts were made to anonymize the data, describe the anonymization process. --> 数据集中的人物姓名(如徐某、魏某)、地点(瑞安市)均为虚构,不涉及任何真实个人或机构的敏感信息。 Bias, Risks, and Limitations <!-- This section is meant to convey both technical and sociotechnical limitations. --> 1. 案情单一性:数据集仅基于一个特定的盗窃案例,可能无法覆盖所有法律领域或更复杂的案件类型。 2. 模拟性质:对话是模拟生成的,可能与真实法庭辩论的即时性、对抗性和不可预测性存在差距。 3. 法律体系特定性:数据基于中国法律体系(如引用《中华人民共和国刑法》),对于其他法域的普适性有限。 4. 观点平衡:数据旨在展示辩论过程,但不代表对案件结果的预判或对任何一方立场的认可。 Recommendations <!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. --> 用户在使用该数据集时,应清楚认识其模拟和教学性质,不能将其输出视为真实的法律意见。建议将该数据集与其他更广泛、更多元的法律文本数据结合使用,以降低模型可能产生的偏见或局限性。在开发实际应用时,必须引入法律专业人士进行结果审核和验证。
提供机构:
sunorme
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作