google/MusicCaps|音乐分析数据集|音乐理解数据集
收藏数据集卡片 for MusicCaps
数据集描述
数据集概述
MusicCaps 数据集包含 5,521 个音乐示例,每个示例都标有英语的 aspect list 和由音乐家编写的 free text caption。例如,aspect list 可能是 "pop, tinny wide hi hats, mellow piano melody, high pitched female vocal melody, sustained pulsating synth lead",而 caption 则由多句话组成,描述音乐的声音,例如:
"A low sounding male voice is rapping over a fast paced drums playing a reggaeton beat along with a bass. Something like a guitar is playing the melody along. This recording is of poor audio-quality. In the background a laughter can be noticed. This song may be playing in a bar."
这些标注示例是从 AudioSet 数据集中提取的 10 秒音乐片段(2,858 来自 eval 分割,2,663 来自 train 分割)。
数据集使用
发布的数据集以 .csv
文件的形式存在,包含 YouTube 视频的 ID 及其开始/结束时间戳。使用此数据集需要下载相应的 YouTube 视频,并根据开始/结束时间进行分割。
支持的任务和排行榜
[更多信息需要]
语言
[更多信息需要]
数据集结构
数据实例
[更多信息需要]
数据字段
- ytid: 指向包含标注音乐片段的 YouTube 视频的 YT ID。可以通过打开 https://youtu.be/watch?v={ytid}&start={start_s} 来收听片段。
- start_s: 音乐在 YouTube 视频中开始的位置。
- end_s: 音乐在 YouTube 视频中结束的位置。所有片段都是 10 秒长。
- audioset_positive_labels: 来自 AudioSet (https://research.google.com/audioset/) 数据集的此片段的标签。
- aspect_list: 描述音乐的 aspect list。
- caption: 描述音乐的多句自由文本 caption。
- author_id: 用于按编写者分组样本的整数。
- is_balanced_subset: 如果此值为 true,则该行是按流派平衡的 1k 子集的一部分。
- is_audioset_eval: 如果此值为 true,则该片段来自 AudioSet eval 分割。否则来自 AudioSet train 分割。
数据分割
[更多信息需要]
数据集创建
策划理由
[更多信息需要]
源数据
初始数据收集和规范化
[更多信息需要]
源语言生产者是谁?
[更多信息需要]
注释
注释过程
[更多信息需要]
注释者是谁?
[更多信息需要]
个人和敏感信息
[更多信息需要]
使用数据集的注意事项
数据集的社会影响
[更多信息需要]
偏见的讨论
[更多信息需要]
其他已知限制
[更多信息需要]
附加信息
数据集策展人
此数据集由 @googleai 分享。
许可信息
此数据集的许可为 cc-by-sa-4.0。
引用信息
bibtex [更多信息需要]
贡献
[更多信息需要]

CliMedBench
CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。
arXiv 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
中国知识产权局专利数据库
该数据集包含了中国知识产权局发布的专利信息,涵盖了专利的申请、授权、转让等详细记录。数据内容包括专利号、申请人、发明人、申请日期、授权日期、专利摘要等。
www.cnipa.gov.cn 收录
Global Livestock Geo-Wiki
Global Livestock Geo-Wiki是一个全球牲畜分布数据集,旨在提供全球范围内牲畜分布的详细信息。该数据集包括不同类型的牲畜(如牛、羊、猪等)的分布情况,以及相关的环境和社会经济数据。
livestock.geo-wiki.org 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录