LexSumm|法律摘要数据集|自然语言处理数据集
收藏LexT5: Benchmarking and Modeling Generative Legal Tasks in English
数据集概述
数据集名称
- LexSumm
数据集描述
- LexSumm 包含八个来自不同司法管辖区的法律摘要数据集,涵盖美国、英国、欧盟和印度。
数据集组成
- BillSum: 美国国会法案及其由国会研究服务机构提供的摘要。
- InAbs: 印度最高法院案件及其作为摘要的判决要点。
- UKAbs: 英国最高法院判决及其官方新闻摘要。
- EurLexSum: 来自EUR-Lex平台的欧盟立法摘要。
- GovReport: 美国政府问责局报告及其专家撰写的摘要。
- MultiLexSum-Long: 美国民权诉讼的多段落摘要。
- MultiLexSum-Short: 美国民权诉讼的单段落摘要。
- MultiLexSum-Tiny: 美国民权诉讼的推特式单句摘要。
数据集格式
- 每个数据集包含以下列:
input
,output
, 和id
。
数据集下载
- Full LexSumm Dataset: 包含所有上述数据集的集合。
模型
模型名称
- LexT5
模型描述
- LexT5 是一个面向法律领域的序列到序列模型,旨在解决现有仅编码器模型在法律领域的局限性。
模型版本
- LexT5-Small: 60M参数
- LexT5-Base: 220M参数
- LexT5-Large: 770M参数
模型下载
- LexT5-Small: Download LexT5-Small
- LexT5-Base: Download LexT5-Base
- LexT5-Large: Download LexT5-Large
引用
引用信息
- 使用 LexT5 或 LexSumm 时,请引用相关论文。

UAVDT
UAVDT数据集由中国科学院大学等机构创建,包含约80,000帧从10小时无人机拍摄视频中精选的图像,覆盖多种复杂城市环境。数据集主要关注车辆目标,每帧均标注了边界框及多达14种属性,如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究,解决高密度、小目标、相机运动等挑战,适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。
arXiv 收录
Fruits-360
一个高质量的水果图像数据集,包含多种水果的图像,如苹果、香蕉、樱桃等,总计42345张图片,分为训练集和验证集,共有64个水果类别。
github 收录
eming/stock_price_trunked_128_12
该数据集包含股票交易相关的详细信息,如交易日期、收盘价、不同周期的移动平均线(MA3, MA5, MA10, MA20, MA60)、MACD指标、股票代码、预测值及预测日期。数据集分为训练集,共有121379个样本,总大小为1126032983字节。
hugging_face 收录
Office-31, Office-Home, VisDA-2017, DomainNet
Office-31是一个包含31个类别的办公用品图像数据集,Office-Home包含65个类别的日常用品图像数据集,VisDA-2017是一个用于视觉领域自适应挑战的数据集,DomainNet是一个大规模的多领域图像数据集。
github 收录
红外谱图数据库
收集整理红外谱图实验手册等数据,建成了红外谱图数据库。本数据库收录了常见化合物的红外谱图。主要包括化合物数据和对应的红外谱图数据。其中,原始红外谱图都进行了数字化处理,从而使谱峰检索成为可能。用户可以在数据库中检索指定化合物的谱图,也可以提交谱图/谱峰数据,以检索与之相似的谱图数据,以协助进行谱图鉴定。
国家基础学科公共科学数据中心 收录