cimec/lambada|自然语言处理数据集|文本理解数据集
收藏数据集概述
数据集名称
- 名称: LAMBADA
- 别名: 无
数据集基本信息
- 语言: 英语 (
en
) - 许可证: CC BY 4.0
- 多语言性: 单语种
- 大小: 10K<n<100K
- 来源数据集: 扩展自 BookCorpus
- 任务类别: 文本到文本生成
- 任务ID: 无
- 标签: 长范围依赖
数据集结构
- 配置名称: plain_text
- 特征:
- text: 字符串类型,包含上下文、目标句子和目标词
- domain: 字符串类型,仅在训练集提供
- 数据分割:
- 训练集: 2,662 本小说,包含超过 200M 字
- 验证集: 4,869 个段落
- 测试集: 5,153 个段落
数据集创建
- 目的: 评估语言模型保持长期上下文记忆的能力
- 数据来源: 小说,来自 BookCorpus
- 注释过程: 通过付费众包人员进行,要求根据整个段落准确预测最后一个词
使用考虑
- 许可证: 使用需遵守 CC BY 4.0 许可
- 引用信息: 提供详细的引用格式,包括作者、标题、出版信息等
数据集详细信息
数据集描述
- 摘要: LAMBADA 数据集通过单词预测任务评估计算模型的文本理解能力。该数据集包含的叙事段落特点是,人类受试者只有在看到整个段落时才能猜出最后一个词,仅看最后一句则几乎不可能。
- 支持任务: 长范围依赖评估,即单词预测
数据集结构
- 数据实例: 每个实例包含一个文本序列,包括上下文、目标句子和目标词。训练数据包括2,662本小说的全文,与验证和测试集不重叠。
- 数据字段:
- category: 仅在训练集提供,指示书籍提取的子类别
- text: 包含上下文、目标句子和目标词的文本
数据集创建
- 筛选理由: 数据集旨在评估语言模型处理长距离上下文的能力。数据筛选确保目标词对人类来说容易根据整个段落猜测,但仅根据最后一句则几乎不可能。
- 源数据: 数据来自 BookCorpus,经过复制和过滤以去除潜在冒犯性内容。
使用考虑
- 许可证信息: 数据集根据 CC BY 4.0 许可发布。
- 引用信息: 提供详细的引用格式,方便学术引用。

China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
VoxBox
VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。
github 收录
中国区域地面气象要素驱动数据集 v2.0(1951-2020)
中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 70 年(1951~2020 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致,仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新,以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中,计划于 2025 年上半年发布,从而使 CMFD 2.0 延伸至 2024 年底。
国家青藏高原科学数据中心 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录