QuAC|问答系统数据集|自然语言处理数据集
收藏
- QuAC数据集首次发表于2018年,由Eunsol Choi等人提出,旨在模拟对话式问答场景,特别是在信息检索和自然语言处理领域。
- QuAC数据集在2019年首次应用于多个研究项目,包括对话系统、问答系统和信息检索模型的评估与改进。
- 2020年,QuAC数据集被广泛用于学术研究和工业应用,成为对话式问答领域的重要基准数据集之一。
- 随着技术的进步,2021年QuAC数据集的扩展版本发布,增加了更多的对话样本和复杂问答场景,进一步推动了相关研究的发展。
LEGO数据集
该数据集包含了关于LEGO公司的历史、产品提供以及特定LEGO套装的信息,用于分析LEGO套装的规模、发布年份、主题分布以及套装复杂性的变化。
github 收录
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录
RAVDESS
情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。
OpenDataLab 收录
QIT-CEMC dataset
QIT-CEMC是一个开源的工具磨损数据集,使用涂层端铣刀在垂直加工中心收集,用于工业大数据和智能制造实验。数据集包括记录工具磨损健康指标的CSV文件和三个文件夹,分别是振动和声音信号文件夹、力和扭矩信号文件夹以及图像文件夹。
github 收录