JovialValley/broadclass_totaldataset_4
收藏数据集概述
数据集名称
- 名称: broadclass_totaldataset_4
数据集特征
- 特征列表:
- name: 数据类型为字符串(string)
- audio: 音频特征,采样率为16000
- label: 数据类型为字符串(string)
- emotion: 数据类型为字符串(string)
- emotion_str: 数据类型为字符串(string)
数据集分割
- 训练集:
- 样本数量: 390
- 数据大小: 164137813.0字节
- 测试集:
- 样本数量: 97
- 数据大小: 41046167.0字节
数据集大小
- 下载大小: 137497490字节
- 总数据集大小: 205183980.0字节
PRBench
PRBench是一个大规模专家标注的专业领域高风险推理基准测试数据集,当前版本覆盖法律和金融领域。包含1,100个专家编写的跨金融和法律领域的对话,19,356个专家策划的评估标准(每个任务10-30条),覆盖114个国家、47个美国司法管辖区和25个专业主题,并包含最具挑战性任务的硬子集(Finance-300, Legal-250)。
github 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
China Kadoorie Biobank (CKB)
China Kadoorie Biobank(CKB)是一项大规模的前瞻性队列研究数据库,旨在通过长期跟踪调查收集中国人群的健康相关信息,包括生活方式、环境暴露、生物样本以及疾病发生发展情况,为慢性病的病因研究和防控策略制定提供科学依据。
www.ckbiobank.org 收录
NIH Chest X-rays
Over 112,000 Chest X-ray images from more than 30,000 unique patients
kaggle 收录
togethercomputer/RedPajama-Data-1T
RedPajama是一个用于文本生成任务的大型数据集,包含2084个jsonl文件,总token数达到1.2万亿。数据集主要使用英语,但也包含多语言的Wikipedia部分。数据集结构包括文本内容、元数据(如URL、时间戳、来源和语言)以及标识数据子集的字段。创建过程涉及从多个源(如Commoncrawl、C4、GitHub等)下载和预处理数据,以尽可能接近LLaMa论文的描述。
hugging_face 收录
