STARD
收藏arXiv2024-06-22 更新2024-06-25 收录
下载链接:
https://github.com/oneal2000/STARD/tree/main
下载链接
链接失效反馈官方服务:
资源简介:
STARD是由清华大学计算机科学与技术系创建的中文法规检索数据集,专注于非专业人士提出的真实法律咨询问题。该数据集包含1,543个来自实际法律咨询的查询案例和55,348条候选法规条文。创建过程中,研究团队从中国法律服务网站收集问题,并手动匿名化处理,确保数据的真实性和隐私保护。STARD的应用领域主要在于法律咨询服务、自动化司法决策等,旨在解决非专业人士在法律查询中遇到的复杂性和多样性问题。
STARD is a Chinese legal retrieval dataset developed by the Department of Computer Science and Technology at Tsinghua University, focusing on real legal consultation questions raised by non-professionals. This dataset contains 1,543 actual legal consultation query cases and 55,348 candidate legal provisions. During the dataset creation process, the research team collected inquiries from Chinese legal service websites and conducted manual anonymization to ensure data authenticity and privacy protection. The main application scenarios of STARD cover legal consultation services, automated judicial decision-making and other related fields, aiming to address the complexity and diversity issues encountered by non-professionals when conducting legal searches.
提供机构:
清华大学计算机科学与技术系
创建时间:
2024-06-22
搜集汇总
数据集介绍

构建方式
STARD数据集的构建始于从12348中国法律服务网站上收集的真实法律咨询问题,并经过匿名化处理。随后,研究人员从官方渠道下载了中国所有现行有效的法律条文和司法解释,并将其分割成可搜索的最小单元。为了确保数据集的质量和一致性,邀请了来自知名法学院的学生作为标注员,按照召回、查询分解和过滤的三步法进行标注。标注过程要求两位标注员对每个问题进行标注,并在他们达成一致意见时,将相关法律条文标记为黄金标准。此外,为了评估标注员之间的可靠性,使用了Cohen's Kappa系数,结果显示标注员之间的一致性达到中等水平,表明数据集具有较高的可靠性。
特点
STARD数据集的特点在于它包含了来自非专业人士的真实法律咨询问题,这些问题往往缺乏精确的法律术语和引用,更贴近普通公众在日常生活中的法律需求。数据集包含了1,543个查询案例和55,348个候选法律条文,涵盖了广泛的民事、刑事和行政法律领域。此外,数据集的构建过程严格遵循了隐私保护和透明度的原则,所有数据都经过了匿名化处理,并且公开了数据集、模型和代码,以促进研究和应用。
使用方法
STARD数据集可用于研究和开发法律信息检索系统,特别是针对非专业人士的法律咨询。研究人员可以利用数据集来评估和改进现有的信息检索模型,以更好地满足公众的法律需求。此外,数据集还可以作为外部知识库,用于增强生成式语言模型在法律任务上的性能。例如,在实验中,使用STARD数据集作为外部知识库的检索增强生成(RAG)显著提高了大型语言模型(LLM)在法律任务上的性能。为了使用数据集,研究人员需要下载数据集、模型和代码,并根据数据集中的查询和候选法律条文进行标注和训练。
背景与挑战
背景概述
在法律领域中,法规检索是一项基础性工作,旨在为特定查询找到相关的法律条文。这对于法律咨询、自动司法判决和法律文件起草等广泛应用至关重要。现有的法规检索基准数据集主要关注来自律师资格考试和法律案例文件等来源的正式和专业查询,而忽略了普通公众的非专业查询,这些查询通常缺乏精确的法律术语和参考。为了填补这一空白,我们介绍了STAtute Retrieval Dataset (STARD),这是一个包含1,543个来自现实世界法律咨询的真实查询案例和55,348个候选法律条文的中文数据集。与现有主要关注专业法律查询的法规检索数据集不同,STARD捕捉了普通公众真实查询的复杂性和多样性。通过在各种检索基线上进行的全面评估,我们发现现有的检索方法都无法满足非专业用户提出的真实查询。最佳方法的Recall@100仅为0.907,这表明在该领域需要进一步探索和额外研究。
当前挑战
法规检索面临以下挑战:(1)法规使用复杂的专业术语和法律结构,这些术语和法律结构很少在开放域语料库中出现。因此,缺乏特定领域知识的传统检索模型可能难以准确捕捉这些专业术语的含义。(2)评估法律领域信息相关性的标准与开放域搜索任务中使用的标准有很大差异。一般搜索任务主要关注文本相似性,而法律任务涉及法律推理,需要理解不同法律领域的知识、它们之间的关系,以及特定法律原则及其实际应用的关联性。由于法规检索的挑战性和其在民法体系中的重要性,该领域已经取得了重大进展。例如,年度COLIEE竞赛引入了一系列使用从日本法律律师资格考试中提取的问题的法规检索任务。这些任务旨在根据来自律师资格考试的问题检索日本民法典的相关法律。AILA(Bhattacharya等人,2019)竞赛也引入了一系列法规检索数据集。AILA的查询是从印度最高法院审理的案例文件中提取的。候选法规是印度法律的一部分。尽管取得了这些进展,但在解决非专业人士的真实查询方面仍然存在重大差距,这些非专业人士代表了大量法律咨询服务的用户。当前的法规检索基准主要基于来自正式法律文件的查询,如律师资格考试问题或最高法院案例文件,这些查询与普通公众日常使用的语言有很大差异。然而,非专业人士的查询通常缺乏精确的法律术语,并且可能包括对法律概念的模糊引用,这极大地复杂了法规检索的任务。为了解决现有基准的局限性,我们提出了STAtute Retrieval Dataset (STARD),即STARD,一个基于普通公众提出的现实世界法律咨询问题的中文法规检索数据集。STARD数据集包含从现实世界法律咨询中收集的1,543个查询案例及其对应的1,543个相关法规。表1展示了我们的数据集的一个例子。据我们所知,STARD是第一个查询来自普通公众提出的现实世界法律咨询的法规检索数据集。我们在STARD数据集上对一系列信息检索(IR)基线进行了实验,包括传统的词法匹配模型、开放域神经网络检索模型、法律领域神经网络检索模型以及一个使用GPT-4标注数据训练的密集检索器。实验结果表明,所有现有的基线都无法准确地检索到相关法规,为未来的工作留下了很大的空间。此外,我们的实验结果表明,使用STARD作为检索增强生成(RAG)的外部知识源可以显著提高大型生成语言模型(LLMs)在法律任务上的性能。这表明STARD对于开发更易访问和高效的法务系统非常有用。总之,本文的贡献如下:• 我们提出了STARD,一个来自非专业人士提出的现实世界法律咨询的法规检索数据集,包含1,543个查询及其对应的相关法规。• 我们提出了一种针对非专业人士查询的法规检索任务的综合标注框架,为法律领域的未来标注提供了参考和见解。• 我们在各种检索基线上进行了实验,发现使用非专业人士提出的查询的法规检索仍然是一个需要进一步研究的困难任务。• 我们在LLMs解决法律任务时进行了实验,发现STARD可以显著提高LLMs在法律任务上的性能。
常用场景
经典使用场景
STARD数据集主要用于法律信息检索,特别是针对非专业人士提出的实际法律咨询问题。该数据集包含了从现实世界法律咨询中收集的1,543个查询案例和55,348个候选法条文章,涵盖了广泛的法律法规。通过这个数据集,研究人员可以训练和评估各种检索模型,以提高法律咨询服务的准确性和效率。
实际应用
STARD数据集在实际应用中具有重要的价值,可以用于开发更智能的法律咨询系统。通过训练和评估检索模型,可以提供更准确的法律建议和自动化司法决策。此外,STARD数据集还可以用于法律文本生成和问答系统,以帮助公众更好地理解法律问题和解决方案。
衍生相关工作
STARD数据集的提出和研究为法律信息检索领域带来了新的研究方向和挑战。未来,研究人员可以基于STARD数据集进一步探索非专业法律查询检索的算法和模型,以提高检索的准确性和效率。此外,还可以研究如何将STARD数据集应用于其他语言和法系,以推动全球法律信息检索技术的发展。
以上内容由遇见数据集搜集并总结生成



