survivor-subtitles|字幕处理数据集|自然语言处理数据集
收藏Survivor Subtitles 数据集概述
数据集描述
该数据集包含美国真人秀节目《Survivor》第1至第47季的字幕文本,这些字幕是从节目播出中提取的。
数据来源
字幕数据来源于OpenSubtitles.com。
数据集详情
- 覆盖范围:
- 季数:1-47
- 每季集数:约13-14集
- 总集数:约600集
- 格式:
- 包含时间戳的字幕数据文本文件
- 字符编码:UTF-8
数据集特征
- 特征:
episode
(string): 集数subtitle_number
(int64): 字幕编号start_time
(float64): 字幕开始时间end_time
(float64): 字幕结束时间duration
(float64): 字幕持续时间text
(string): 字幕文本
数据集分割
- 训练集:
- 字节数:45973562
- 样本数:615457
下载与大小
- 下载大小:27788539
- 数据集大小:45973562
限制与伦理考虑
- 数据集应仅在合理使用原则下使用
- 任何衍生作品应适当归功于CBS并尊重版权限制
- 数据可能包含转录错误或不一致
引用
使用该数据集时,请引用:
- 原节目:"Survivor" (CBS Television)
- 字幕来源:OpenSubtitles.com
维护
请通过项目的issue tracker报告数据集中的任何问题或错误。
版权声明
所有内容版权归CBS所有。该数据集仅供研究使用。字幕受版权法保护,未经版权持有者授权,不得用于商业用途。
许可证
该数据集采用CC BY-SA 4.0(知识共享署名-相同方式共享 4.0 国际)许可证。
主要条款:
- 需要署名
- 衍生作品需采用相同方式共享
- 内容版权归CBS及各自版权持有者所有

LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
LibriSpeech
LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。
OpenDataLab 收录
中国逐日降水数据集(1961-2022,0.1°/0.25°/0.5°)
CHM_PRE数据集基于中国境内及周边1961至今共2839个站点的日降水观测,在传统的“降水背景场 + 降水比值场”的数据集构建思路上,尝试应用月值降水约束和地形特征校正,并依据中国范围内约4万个高密度站点2015–2019年的日降水量插值后数据进行精度评价。经评估认为,CHM_PRE可以较好的表征降水的空间变异性,其日值时间序列与高密度站点日值降水观测结果之间的相关系数中位数为0.78,均方根误差中位数为8.8 mm/d,KGE值中位数为0.69,与目前常用的降水数据集(CGDPA、CN05.1、CMA V2.0)有很好的一致性。 数据集的时间范围为1961年至今,空间分辨率为0.1°、0.25°和0.5°,经纬度范围为18°N–54°N, 72°E–136°E。
国家青藏高原科学数据中心 收录
FAOSTAT Agricultural Data
FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。
www.fao.org 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录