LeCoDe
收藏arXiv2025-05-26 更新2025-05-28 收录
下载链接:
http://arxiv.org/abs/2505.19667v1
下载链接
链接失效反馈资源简介:
LeCoDe 是一个包含 3,696 个法律咨询对话和 110,008 个对话轮次的真实世界多轮基准数据集,旨在评估和改进大型语言模型的法律咨询能力。该数据集通过从短视频平台上收集直播的法律咨询对话来提供真实的对话数据。数据集还经过了法律专家的严格标注,进一步增强了数据集的专业见解和专业技能。此外,LeCoDe 还提出了一个全面的评估框架,通过 12 个指标对 LLM 的咨询能力进行评估,包括澄清能力和专业建议质量。
LeCoDe is a real-world multi-turn benchmark dataset consisting of 3,696 legal consultation dialogues and 110,008 dialogue turns, intended to evaluate and improve the legal consultation capabilities of large language models (LLMs). This dataset offers authentic conversational data by collecting live-streamed legal consultation dialogues from short-video platforms. It has also been rigorously annotated by legal experts, further enhancing the dataset's professional insights and specialized expertise. Furthermore, LeCoDe proposes a comprehensive evaluation framework for assessing the consultation capabilities of LLMs across 12 metrics, including clarification ability and the quality of professional legal advice.
提供机构:
浙江大学,中国;同义实验室,阿里巴巴集团,中国;伍斯特理工学院,美国
创建时间:
2025-05-26
AI搜集汇总
数据集介绍

构建方式
LeCoDe数据集的构建采用了创新的多阶段流程,通过中国最大的短视频平台抖音获取真实的直播法律咨询视频作为原始数据源。研究团队首先利用先进的Tingwu和Qwen-max模型进行说话人感知转录和对话角色识别,随后通过两阶段专家标注流程确保数据质量:第一阶段进行对话标准化和意图标注,第二阶段由法律专家提取关键事实、重要性评分和法律建议摘要。整个流程包含严格的伦理审查和质量控制,最终形成包含3,696个对话、110,008轮次的高质量数据集。
特点
LeCoDe数据集具有三个显著特点:1) 真实性,所有对话均来自真实的法律咨询场景,而非人工合成;2) 专业性,每个对话都经过法律专家严格标注,包含关键事实提取、重要性评分和结构化意图分类;3) 多样性,涵盖刑事、民事和行政三大法律领域,包含盗窃、强奸、故意伤害、婚姻纠纷等多种案件类型。数据集平均每个对话包含29.76轮交互和9.19个关键事实,全面反映了真实法律咨询中的信息不对称和交互复杂性。
使用方法
使用LeCoDe数据集时,研究人员可通过两种主要方式:1) 评估方面,数据集提供了全面的评估框架,包含澄清能力(召回率、加权召回率等)和建议质量(专业性、完整性等)两个维度的12项指标;2) 模型训练方面,推荐采用三种监督微调策略:直接SFT、关键事实SFT和增强型关键事实SFT,其中增强型关键事实SFT能同时覆盖多个关键事实,在实验中表现最佳。数据集适用于法律领域对话系统的开发、评估和改进研究,但需注意仅限于学术用途。
背景与挑战
背景概述
LeCoDe(Legal Consultation Dialogue Evaluation)是由浙江大学与阿里巴巴集团通义实验室联合研发的交互式法律咨询对话评估基准数据集,发布于2025年5月。该数据集包含3,696个真实法律咨询对话和110,008轮次对话,源自中国短视频平台抖音的直播咨询内容,并由法律专家进行严格标注。其核心研究目标是解决法律领域专业咨询场景中大型语言模型(LLMs)的交互能力与专业知识融合问题,填补了现有法律数据集在真实多轮对话建模方面的空白。作为首个大规模真实法律咨询对话数据集,LeCoDe通过创新的数据采集方法和精细的专家标注体系,为法律AI系统的开发与评估提供了重要基础设施。
当前挑战
该数据集面临双重挑战:领域问题方面,需解决法律咨询场景特有的信息不对称问题——用户初始描述模糊性(如仅38%关键事实在首轮对话中出现)与专业术语理解鸿沟(87%对话涉及非专业表述转换)。构建过程方面存在三大难点:1)真实咨询数据获取壁垒(需处理235小时直播视频的降噪与角色分离);2)多维度标注复杂性(每个对话平均需标注9.19个原子事实及其3级重要性权重);3)伦理合规风险控制(对敏感案件信息的匿名化处理达100%)。实验显示当前最先进模型GPT-4在关键事实召回率仅39.8%,突显专业咨询场景的技术挑战。
常用场景
经典使用场景
LeCoDe数据集作为首个专注于交互式法律咨询对话的大规模基准数据集,其经典使用场景主要集中在评估和提升大型语言模型(LLMs)在法律咨询任务中的表现。通过模拟真实世界的多轮法律咨询对话,该数据集为研究者提供了一个标准化的测试平台,用于衡量模型在信息澄清和专业建议生成两方面的能力。在法律人工智能领域,LeCoDe被广泛用于验证模型处理模糊初始查询、通过多轮交互提取关键事实,并最终生成符合法律专业标准的建议的能力。
实际应用
在实际应用层面,LeCoDe数据集支撑了智能法律助手的开发与优化。基于该数据集训练的模型可应用于在线法律咨询平台,通过自动生成澄清问题和初步法律建议,显著降低法律服务门槛。例如,在短视频平台的法律直播咨询场景中,系统能辅助律师快速定位案件核心事实;在普惠法律服务平台,可为经济困难群体提供7×24小时的自动化法律问答服务,缓解律师资源不足的社会矛盾。
衍生相关工作
LeCoDe的发布催生了一系列重要衍生研究:在方法层面,基于其提出的Key-fact SFT策略衍生出法律领域专用的对话微调范式;在评估体系方面,启发了CAIL2024等竞赛对咨询对话生成任务的重新设计;在系统构建上,支撑了ChatLaw等多智能体法律系统的知识增强方案。相关研究进一步拓展到医疗咨询等跨领域场景,形成了专业咨询服务评估的通用方法论。
以上内容由AI搜集并总结生成



