A11_19596.jpg
收藏YouTube-English
该数据集包含从各种YouTube频道提取的英语音频片段以及相应的转录元数据。数据用于训练自动语音识别(ASR)模型。数据来源于YouTube频道,处理过程包括下载、分割和保存音频及元数据。数据集总结部分详细列出了每个频道的视频数量、持续时间和占总数据集的百分比。
huggingface 收录
UCF-Crime
UCF-犯罪数据集是128小时视频的新型大规模第一个数据集。它包含1900年长而未修剪的真实世界监控视频,其中包含13个现实异常,包括虐待,逮捕,纵火,殴打,道路交通事故,入室盗窃,爆炸,战斗,抢劫,射击,偷窃,入店行窃和故意破坏。之所以选择这些异常,是因为它们对公共安全有重大影响。这个数据集可以用于两个任务。首先,考虑一组中的所有异常和另一组中的所有正常活动的一般异常检测。第二,用于识别13个异常活动中的每一个。
OpenDataLab 收录
NIH Chest X-rays
Over 112,000 Chest X-ray images from more than 30,000 unique patients
kaggle 收录
CBIS-DDSM
该数据集用于训练乳腺癌分类器或分割模型,包含3103张乳腺X光片,其中465张有多个异常。数据集分为训练集和测试集,还包括3568张裁剪的乳腺X光片和对应的掩码。
github 收录
togethercomputer/RedPajama-Data-1T
RedPajama是一个用于文本生成任务的大型数据集,包含2084个jsonl文件,总token数达到1.2万亿。数据集主要使用英语,但也包含多语言的Wikipedia部分。数据集结构包括文本内容、元数据(如URL、时间戳、来源和语言)以及标识数据子集的字段。创建过程涉及从多个源(如Commoncrawl、C4、GitHub等)下载和预处理数据,以尽可能接近LLaMa论文的描述。
hugging_face 收录
