survivor-subtitles|字幕处理数据集|自然语言处理数据集
收藏Survivor Subtitles 数据集概述
数据集描述
该数据集包含美国真人秀节目《Survivor》第1至第47季的字幕文本,这些字幕是从节目播出中提取的。
数据来源
字幕数据来源于OpenSubtitles.com。
数据集详情
- 覆盖范围:
- 季数:1-47
- 每季集数:约13-14集
- 总集数:约600集
- 格式:
- 包含时间戳的字幕数据文本文件
- 字符编码:UTF-8
数据集特征
- 特征:
episode
(string): 集数subtitle_number
(int64): 字幕编号start_time
(float64): 字幕开始时间end_time
(float64): 字幕结束时间duration
(float64): 字幕持续时间text
(string): 字幕文本
数据集分割
- 训练集:
- 字节数:45973562
- 样本数:615457
下载与大小
- 下载大小:27788539
- 数据集大小:45973562
限制与伦理考虑
- 数据集应仅在合理使用原则下使用
- 任何衍生作品应适当归功于CBS并尊重版权限制
- 数据可能包含转录错误或不一致
引用
使用该数据集时,请引用:
- 原节目:"Survivor" (CBS Television)
- 字幕来源:OpenSubtitles.com
维护
请通过项目的issue tracker报告数据集中的任何问题或错误。
版权声明
所有内容版权归CBS所有。该数据集仅供研究使用。字幕受版权法保护,未经版权持有者授权,不得用于商业用途。
许可证
该数据集采用CC BY-SA 4.0(知识共享署名-相同方式共享 4.0 国际)许可证。
主要条款:
- 需要署名
- 衍生作品需采用相同方式共享
- 内容版权归CBS及各自版权持有者所有

2020年中西亚30m Landsat TM/OLI土壤盐渍化分布数据集
该土壤盐渍化产品覆盖范围涵盖中亚五国、西亚土耳其、阿富汗及伊朗全境,该产品使用Landsat、SPOT数据遥感数据解译得到,其中大部分区域使用Landsat数据,部分重点监测区域采用SPOT数据进行补充,利用多源、多时相遥感影像,结合遥感参数、地形地貌和自然环境因子,采用面向对象的遥感分类方法,应用影像分割、决策树分类、变化监测等关键技术完成。该2020年30米空间分辨率数据可用于中西亚盐渍化时空变化分析及资源利用评估,可为农牧业、林业、环境保护、水资源保护、环境保护等政府相关部门的规划与管理提供基础信息。
地球大数据科学工程 收录
DOLPHINS
DOLPHINS数据集是由清华大学电子工程系创建的一个大规模、多场景、多视角、多模态的自动驾驶数据集。该数据集包含42376帧图像和点云数据,涵盖6种典型自动驾驶场景,如城市交叉口、T型路口等,并考虑了动态天气条件。数据集通过CARLA模拟器生成,确保了数据的多样性和真实性。DOLPHINS数据集旨在支持车辆间(V2V)和车辆与基础设施间(V2I)的协同感知研究,解决自动驾驶中的盲区和长距离感知问题,推动互联自动驾驶技术的发展。
arXiv 收录
TimeExtractor
该数据集由JioNLP创建,旨在微调大型语言模型(LLMs)以从文本中提取时间实体,并将其标准化为JSON格式。数据集分为两部分:general.json包含从各种新闻来源提取的样本,smartspeaker.json包含从语音助手获取的样本。提取过程首先从文本中提取原始时间实体字符串,然后通过大型模型进行标准化处理,最终结果可以输入到JioNLP的时间解析模块jio.parse中进行处理,以获得准确可靠的结果。数据集目前规模较小,未来可以通过添加各种类型的文本来扩展。
huggingface 收录
鸭绿江流域与水系 – 世界地理数据大百科辞条
鸭绿江流域是指鸭绿江干流和支流汇水区,地理位置为39°43′57″N-42°17′28″N,123°35′59″E-128°45′50″E。与其接壤的流域分别是辽河流域(东)、松花江流域(北)、图们江流域(北)、大同江流域(西南)等。鸭绿江流域界线在中国境内从长白山天池火山口的南壁起始,向西南经长白山脉、转向西南至千山山脉的北部,再折向南入海;在朝鲜境内,鸭绿江流域从长白山天池南坡启始向东南经过摩天岭山脉,在头流山(2309 m)转向西南方向的赴战岭山脉,在英雄里附近转向西,经狼林山(2184 m)、广城、松源,转向西南方向的狄逾岭山脉,接江南山脉的南部后至鸭绿江河口。鸭绿江流域面积65215.49 km²,其中,中国境内面积32799.22 km²,朝鲜境内面积32416.27 km²。鸭绿江是中(国)朝(鲜)界河,它起源于长白山天池火山口的南壁,向南经惠山(朝)、折向西经临江(中)、再转向西南直向丹东(中)、新义州(朝),最后在东港(中)和多狮里(朝)附近注入黄海的西朝鲜湾。鸭绿江干流长844.98 km,有几条比较大的支流汇入,包括在朝鲜境内的虛川江、長津江、厚州川、慈城江、禿魯江、忠满江和三桥川;在中国境内的浑江、蒲石河、瑗河等。鸭绿江干流沿中朝国界线自东北向西南流经吉林省的长白朝鲜族自治县、临江市、集安市;辽宁省的桓仁满族自治县、宽甸满族自治县、丹东市和东港市;朝鲜的两江道、慈江道和平安北道。鸭绿江流域地处暖温带湿润季风气候区。年降水量800-1200 mm。流域内多山,最高海拔2745 m,河道比降比较大,达到0.0032,其中在中段可达到0.01。丰富的降水补给和较大的河床比降,使得鸭绿江流域成为亚洲单位面积水资源和水利资源最丰富的流域之一。近80年来,流域内先后建造了水丰水库(中、朝)、渭源水库(中、朝)、铁甲水库(中)、太平哨水库(中)、桓仁水库(中)、回龙山水库(中)、满丰湖水库(朝)、版平里水库(朝)、时中湖水库(朝)、狼林湖水库(朝)、长津湖水库(朝)、赴战湖水库(朝)、丰西湖水库等(朝)。数据文件包括鸭绿江干流、鸭绿江水系和鸭绿江流域地理信息系统数据文件组成。数据集以.kmz 和.shp格式存储,数据量43.8 MB(压缩为20.1 MB)。
国家对地观测科学数据中心 收录
flames-and-smoke-datasets
该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。
github 收录