genshin-v3.3-mandarin-lines|游戏文本数据集|自然语言处理数据集
收藏数据集概述
数据集信息
- 特征:
- language: 语言类型,数据类型为字符串。
- npcName: NPC名称,数据类型为字符串。
- text: 文本内容,数据类型为字符串。
- type: 文本类型,数据类型为字符串。
数据集划分
- train:
- 样本数量: 70534
- 数据大小: 7166326.0310263485 字节
数据集配置
- 配置名称: default
- 数据文件:
- split: train
- path: data/train-*
- 数据文件:
数据集大小
- 下载大小: 3701271 字节
- 数据集大小: 7166326.0310263485 字节

Google Scholar
Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。
scholar.google.com 收录
PDT Dataset
PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。
arXiv 收录
BBGRE
The Brain & Body Genetic Resource Exchange (BBGRE) provides a resource for investigating the genetic basis of neurodisability. It combines phenotype information from patients with neurodevelopmental and behavioural problems with clinical genetic data, and displays this information on the human genome map.
国家生物信息中心 收录
OpenSinger
OpenSinger是由浙江大学发布的大规模多歌手中文歌唱语音数据集,旨在解决高保真歌唱语音合成中的数据稀缺问题。该数据集包含50小时的专业歌手录音,涵盖41位女性和25位男性的歌唱表演,所有录音均在专业录音棚完成,确保高质量无噪音。OpenSinger不仅规模大,质量高,而且是首个公开的中文多歌手歌唱语音数据集,适用于多种歌唱语音合成研究。数据集的创建过程包括精心挑选歌曲、组织专业歌手录音,并由专业团队进行标注和处理,确保数据的准确性和可用性。该数据集主要用于推动歌唱语音合成技术的发展,特别是在多歌手模型和未见歌手模型的合成质量提升方面。
arXiv 收录
全球1km分辨率大气二氧化碳浓度数据集(2003-2023)
持续增加的人为CO₂排放导致了全球变暖和气候变化,进而引发了全球范围的重大环境、经济和健康损失,基于卫星遥感数据准确连续地监测大气CO₂变化对于理解全球碳循环、评估碳源和碳汇的分布以及制定有效的减排政策至关重要。大气CO2柱浓度(XCO2)指从地表到大气顶层干燥空气柱中CO2的平均体积比,是用来表征大气中CO2分子含量的物理量。当前已公开发表的全球无缝XCO2产品存在无法同时提供长时间跨度和高时空分辨率的问题,限制了其更为广泛的科学应用。本数据集基于来自SCIAMACHY、GOSAT 和 OCO-2 三颗卫星/传感器的XCO2观测数据进行二次研发,以卫星XCO2观测数据为训练标签,与 CO₂ 排放、吸收和传输相关的多源因素为解释变量,利用整合了U-Net网络和ConvLSTM网络的深度学习算法构建预测模型,生成了国际首套2003-2023年全球时空连续1公里分辨率逐日XCO2数据集。经全球27个TCCON地面观测站点的验证,结果表明该产品具有较好的精度(决定系数R2为0.989,均方根误差RMSE为1.021ppm)。本数据集为深化对全球碳循环的理解、评估减排政策以及应对气候变化挑战提供了重要的基础数据。
国家青藏高原科学数据中心 收录