nguha/legalbench|法律推理数据集|自然语言处理数据集
收藏数据集概述
本数据集包含多个子数据集,每个子数据集针对不同的法律和金融领域任务,如文本分类、问答和文本生成。以下是各子数据集的详细信息:
1. Abercrombie
- 任务类别:文本分类
- 特征:
- answer: 字符串
- index: 字符串
- text: 字符串
- 分割:
- 训练集:5个样本,307字节
- 测试集:95个样本,6240字节
- 下载大小:19499061字节
- 数据集大小:6547字节
2. Canada Tax Court Outcomes
- 任务类别:文本分类
- 特征:
- answer: 字符串
- index: 字符串
- text: 字符串
- 分割:
- 训练集:6个样本,2975字节
- 测试集:244个样本,157411字节
- 下载大小:19499061字节
- 数据集大小:160386字节
3. Citation Prediction Classification
- 任务类别:文本分类
- 特征:
- answer: 字符串
- citation: 字符串
- index: 字符串
- text: 字符串
- 分割:
- 训练集:2个样本,660字节
- 测试集:108个样本,26112字节
- 下载大小:19499061字节
- 数据集大小:26772字节
4. Citation Prediction Open
- 任务类别:文本分类
- 特征:
- answer: 字符串
- circuit: 字符串
- index: 字符串
- text: 字符串
- 分割:
- 训练集:2个样本,555字节
- 测试集:53个样本,13460字节
- 下载大小:19499061字节
- 数据集大小:14015字节
5. Consumer Contracts QA
- 任务类别:问答
- 特征:
- answer: 字符串
- contract: 字符串
- index: 字符串
- question: 字符串
- 分割:
- 训练集:4个样本,9941字节
- 测试集:396个样本,1221320字节
- 下载大小:19499061字节
- 数据集大小:1231261字节
6. Contract NLI Confidentiality of Agreement
- 任务类别:文本分类
- 特征:
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
- 分割:
- 训练集:8个样本,4070字节
- 测试集:82个样本,43818字节
- 下载大小:19499061字节
- 数据集大小:47888字节
7. Contract NLI Explicit Identification
- 任务类别:文本分类
- 特征:
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
- 分割:
- 训练集:8个样本,3615字节
- 测试集:109个样本,62133字节
- 下载大小:19499061字节
- 数据集大小:65748字节
8. Contract NLI Inclusion of Verbally Conveyed Information
- 任务类别:文本分类
- 特征:
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
- 分割:
- 训练集:8个样本,3817字节
- 测试集:139个样本,81933字节
- 下载大小:19499061字节
- 数据集大小:85750字节
9. Contract NLI Limited Use
- 任务类别:文本分类
- 特征:
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
- 分割:
- 训练集:8个样本,4855字节
- 测试集:208个样本,98534字节
- 下载大小:19499061字节
- 数据集大小:103389字节
10. Contract NLI No Licensing
- 任务类别:文本分类
- 特征:
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
- 分割:
- 训练集:8个样本,2591字节
- 测试集:162个样本,78173字节
- 下载大小:19499061字节
- 数据集大小:80764字节
11. Contract NLI Notice on Compelled Disclosure
- 任务类别:文本分类
- 特征:
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
- 分割:
- 训练集:8个样本,3907字节
- 测试集:142个样本,80470字节
- 下载大小:19499061字节
- 数据集大小:84377字节
12. Contract NLI Permissible Acquirement of Similar Information
- 任务类别:文本分类
- 特征:
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
- 分割:
- 训练集:8个样本,2736字节
- 测试集:178个样本,87469字节
- 下载大小:19499061字节
- 数据集大小:90205字节
13. Contract NLI Permissible Copy
- 任务类别:文本分类
- 特征:
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
- 分割:
- 训练集:8个样本,3480字节
- 测试集:87个样本,39015字节
- 下载大小:19499061字节
- 数据集大小:42495字节
14. Contract NLI Permissible Development of Similar Information
- 任务类别:文本分类
- 特征:
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
- 分割:
- 训练集:8个样本,3921字节
- 测试集:136个样本,62603字节
- 下载大小:19499061字节
- 数据集大小:66524字节
15. Contract NLI Permissible Post-agreement Possession
- 任务类别:文本分类
- 特征:
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
- 分割:
- 训练集:8个样本,4608字节
- 测试集:111个样本,65932字节
- 下载大小:19499061字节
- 数据集大小:70540字节
16. Contract NLI Return of Confidential Information
- 任务类别:文本分类
- 特征:
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
- 分割:
- 训练集:8个样本,3499字节
- 测试集:66个样本,35672字节
- 下载大小:19499061字节
- 数据集大小:39171字节
17. Contract NLI Sharing with Employees
- 任务类别:文本分类
- 特征:
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
- 分割:
- 训练集:8个样本,3173字节
- 测试集:170个样本,104240字节
- 下载大小:19499061字节
- 数据集大小:107413字节
18. Contract NLI Sharing with Third-parties
- 任务类别:文本分类
- 特征:
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
- 分割:
- 训练集:8个样本,3249字节
- 测试集:180个样本,104822字节
- 下载大小:19499061字节
- 数据集大小:108071字节
19. Contract NLI Survival of Obligations
- 任务类别:文本分类
- 特征:
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
- 分割:
- 训练集:8个样本,2272字节
- 测试集:157个样本,75450字节
- 下载大小:19499061字节
- 数据集大小:77722字节
20. Contract QA
- 任务类别:问答
- 特征:
- answer: 字符串
- index: 字符串
- question: 字符串
- text: 字符串
- 分割:
- 训练集:8个样本,2408字节
- 测试集:80个样本,26370字节
- 下载大小:19499061字节
- 数据集大小:28778字节
21. Corporate Lobbying
- 任务类别:文本分类
- 特征:
- answer: 字符串
- bill_summary: 字符串
- bill_title: 字符串
- company_description: 字符串
- company_name: 字符串
- index: 字符串
- 分割:
- 训练集:10个样本,54334字节
- 测试集:490个样本,2974813字节
- 下载大小:19499061字节
- 数据集大小:3029147字节
22. CUAD Affiliate License-Licensee
- 任务类别:文本分类
- 特征:
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
- 分割:
- 训练集:6个样本,4067字节
- 测试集:198个样本,115798字节
- 下载大小:19499061字节
- 数据集大小:119865字节
23. CUAD Affiliate License-Licensor
- 任务类别:文本分类
- 特征:
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
- 分割:
- 训练集:6个样本,4247字节
- 测试集:88个样本,64931字节
- 下载大小:19499061字节
- 数据集大小:69178字节
24. CUAD Anti-assignment
- 任务类别:文本分类
- 特征:
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
- 分割:
- 训练集:6个样本,2070字节
- 测试集:1172个样本,513026字节
- 下载大小:19499061字节
- 数据集大小:515096字节
25. CUAD Audit Rights
- 任务类别:文本分类
- 特征:
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
- 分割:
- 训练集:6个样本,2555字节
- 测试集:1216个样本,526977字节
- 下载大小:19499061字节
- 数据集大小:529532字节
26. CUAD Cap on Liability
- 任务类别:文本分类
- 特征:
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
- 分割:
- 训练集:6个样本,2621字节
- 测试集:1246个样本,587220字节
- 下载大小:19499061字节
- 数据集大小:589841字节
27. CUAD Change of Control
- 任务类别:文本分类
- 特征:
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
- 分割:
- 训练集:6个样本,2231字节
- 测试集:416个样本,203823字节
- 下载大小:19499061字节
- 数据集大小:206054字节
28. CUAD Competitive Restriction Exception
- 任务类别:文本分类
- 特征:
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
- 分割:
- 训练集:6个样本,2774字节
- 测试集:220个样本,115844字节
- 下载大小:19499061字节
- 数据集大小:118618字节
29. CUAD Covenant Not to Sue
- 任务类别:文本分类
- 特征:
- answer: 字符串
- index: 字符串
- text: 字符串
- document_name: 字符串
- 分割:
- 训练集:6个样本,25

Google Scholar
Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。
scholar.google.com 收录
China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
UniProt
UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。
www.uniprot.org 收录
Tropicos
Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。
www.tropicos.org 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录