CaseSumm|法律案件摘要数据集|法律研究数据集
收藏CaseSumm 数据集概述
基本信息
- 数据集名称: CaseSumm
- 许可协议: CC BY-NC 3.0
- 任务类别: 摘要生成
- 语言: 英语
- 标签: 法律
数据集描述
CaseSumm 数据集包含美国最高法院从1815年至2019年的案件及其官方摘要(称为syllabuses)。这些摘要由法院雇佣的律师撰写,并经法官批准。因此,syllabus被视为多数意见摘要的金标准,非常适合用于评估其他意见摘要。
数据来源
- 案件意见: 来自Public Resource Org的档案。
- 官方摘要: 从美国报告和由国会图书馆托管的官方意见中提取。
许可与使用
该数据集以CC BY-NC 4.0许可协议提供,为研究社区提供了丰富的资源。

LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
中国行政区划数据
本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。
github 收录
OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录