five

JEC-QA

收藏
arXiv2019-11-27 更新2024-06-21 收录
下载链接:
http://jecqa.thunlp.org/
下载链接
链接失效反馈
官方服务:
资源简介:
JEC-QA是中国最大的法律领域问答数据集,由清华大学计算机科学与技术系人工智能研究所创建。该数据集包含26,365个多选题,每个问题有四个选项,数据来源于中国的国家司法考试。JEC-QA旨在通过复杂的逻辑推理能力来挑战现有的问答方法,特别是在法律领域的应用。数据集的应用领域包括提高机器理解模型的推理能力,以及帮助专业人士提高工作效率和分析实际案例的准确性。

JEC-QA is the largest legal-domain question answering dataset in China, developed by the AI Research Institute of the Department of Computer Science and Technology, Tsinghua University. This dataset contains 26,365 multiple-choice questions, each with four options, and the data is sourced from China's National Judicial Examination. JEC-QA aims to challenge existing question answering methods via complex logical reasoning capabilities, especially for legal-domain applications. The application scenarios of this dataset include improving the reasoning capabilities of machine comprehension models, as well as assisting professionals in enhancing work efficiency and the accuracy of practical case analysis.
提供机构:
清华大学计算机科学与技术系人工智能研究所,北京国家信息科学与技术研究中心,中国
创建时间:
2019-11-27
搜集汇总
数据集介绍
main_image_url
构建方式
JEC-QA 数据集的构建方式主要来源于中国的国家司法考试,这是一个对法律从业者专业能力的全面评估。每年,只有大约10%的参与者能够通过这个考试,证明即使对于有经验的人来说,这也是一个困难的任务。数据集收集了从2009年到2017年的国家司法考试中的2700个多项选择题和来自网站的30,371个练习题。在去除重复的问题后,JEC-QA 数据集中共有26,365个问题。每个问题都包含一个问题描述和四个候选选项。同时,问题也可以被分类为知识驱动问题(KD-questions)和案例分析问题(CA-questions)。KD-questions 专注于对特定法律概念的理解,而 CA-questions 更专注于实际案例的分析。回答这两种类型的问题都需要推理能力。为了确保检索质量,我们将纸质书籍转换成了结构化的电子版,而不是使用OCR工具。对于中国的法律条款,我们在数据库中包含了3,382个不同的法律条款。
使用方法
使用 JEC-QA 数据集时,首先需要从数据库中检索相关文章,然后应用阅读理解模型来回答问题。与现有的问答数据集不同,JEC-QA 要求在回答问题时进行多跳推理,包括词匹配、概念理解、数值分析、多段阅读和多跳推理。在回答问题时,模型需要理解法律概念,进行数值分析,阅读多个段落以收集足够的证据,并进行多跳推理以得出答案。JEC-QA 的使用有助于提高阅读理解和问答模型的推理能力,并为法律问答的研究提供有价值的基准。
背景与挑战
背景概述
在法律领域,法律问题回答(LQA)系统旨在为法律问题提供解释、建议或解决方案。一个合格的法律问题回答系统不仅可以为不具备法律专业知识的人提供专业咨询服务,还可以帮助专业人士提高工作效率,更准确地分析实际案例。尽管研究人员已经尝试使用机器学习技术和神经网络构建法律问题回答系统,但法律问题回答仍然面临着两个主要挑战:缺乏合格的法律问题回答数据集,限制了研究的发展;法律领域的案例和问题非常复杂和严谨,需要复杂的推理能力和文本理解能力。
当前挑战
JEC-QA数据集的创建旨在解决现有法律问题回答方法的挑战。由于回答法律问题需要多种推理能力,最先进的模型在JEC-QA上的准确率只能达到约28%,而熟练的人类和不熟练的人类分别可以达到81%和64%的准确率,这表明人类和机器在该任务上存在巨大的差距。JEC-QA数据集收集了中国国家司法考试的问题,该考试是对法律从业者专业技能的全面评估。JEC-QA数据集包含26,365个多项选择题,是迄今为止最大的法律问题回答数据集,其规模是之前最大数据集的50倍。JEC-QA数据集提供了包括所有考试所需法律知识的数据库,以及额外的问题标签,包括问题的类型(知识驱动问题或案例分析问题)和问题所需的推理能力。JEC-QA数据集要求多种推理能力,包括单词匹配、概念理解、数值分析、多段阅读和多跳推理。这些推理能力的缺乏导致现有模型在JEC-QA数据集上的表现不佳。
常用场景
经典使用场景
JEC-QA数据集是针对法律领域的问答任务而设计的,其中包含26,365个多项选择题,这些题目均来源于中国国家司法考试。该数据集的构建旨在推动法律领域问答系统的发展,特别是在逻辑推理能力方面的提升。数据集中的问题类型分为知识驱动型(KD-questions)和案例分析型(CA-questions),这两种类型的问题都要求模型具备复杂的推理和文本理解能力。JEC-QA数据集的发布,为研究者提供了大规模的、具有挑战性的法律领域问答数据,有助于推动机器理解模型在法律领域问答任务上的研究和进展。
解决学术问题
JEC-QA数据集的发布解决了法律领域问答任务中存在的两个主要挑战。首先,现有的法律领域问答数据集较少,限制了研究的发展。其次,法律领域的案例和问题非常复杂和严格,需要模型具备强大的推理能力。JEC-QA数据集包含了大量的法律知识,以及各种类型的推理能力标签,为研究者提供了丰富的数据资源,有助于解决这些问题。
实际应用
JEC-QA数据集的实际应用场景主要集中在法律咨询和服务领域。例如,可以构建一个基于JEC-QA数据集的法律问答系统,为非专业人士提供专业的法律咨询服务,帮助他们解决法律问题。此外,对于专业人士来说,JEC-QA数据集也可以帮助他们提高工作效率,更准确地分析真实案例。JEC-QA数据集的应用,有助于推动法律智能的发展,提高法律服务的质量和效率。
数据集最近研究
最新研究方向
法律领域的问答系统在近年来取得了显著的进展,JEC-QA数据集作为目前最大的法律问答数据集,旨在推动该领域的发展。JEC-QA数据集的特点在于其包含了大量的法律专业知识和复杂的法律问题,对现有的问答系统提出了新的挑战。该数据集要求模型具备多方面的推理能力,包括词匹配、概念理解、数值分析、多段阅读和多跳推理等。实验结果表明,即使是表现最好的模型,在JEC-QA数据集上的准确率也只有约28%,而人类在相同任务上的准确率可以达到81%。这表明,在法律领域的问答任务中,人类和机器之间仍存在较大的差距。未来的研究方向包括如何提高问答模型的推理能力,以及如何将法律知识整合到问答系统中。
相关研究论文
  • 1
    JEC-QA: A Legal-Domain Question Answering Dataset清华大学计算机科学与技术系人工智能研究所,北京国家信息科学与技术研究中心,中国 · 2019年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作