FSDD|语音识别数据集|机器学习数据集
收藏
- FSDD数据集首次发表,由A. W. Harley在GitHub上公开发布,旨在为语音识别领域的研究提供一个简单且易于使用的数据集。
- FSDD数据集首次应用于语音识别模型的训练和评估,多个研究团队开始使用该数据集进行实验,验证其有效性和适用性。
- FSDD数据集的扩展版本发布,增加了更多的语音样本和多样性,以满足日益增长的语音识别研究需求。
- FSDD数据集被多个国际会议和期刊引用,成为语音识别领域的一个重要基准数据集,推动了相关研究的进展。
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
中文高质量大模型多轮对话SFT数据集
该数据集来源于晴数智慧LLM多领域超自然SFT多轮对话文本数据集。该数据集包含97184轮中文自然对话句子,涉及【家庭生活、教育医疗、军事战争、科学技术、气候环境、人文科学、商业经济、数码产品、体育竞技、休闲娱乐、衣食住行、艺术美术、政治法律、职业发展、宗教信仰】15个主题。领域覆盖多样,也可以单独抽取相关领域的数据进行领域SFT。本次开源的部分数据,由来自中国的644名不同ID的采集人独家贡献,北京晴数智慧科技有限公司进行授权采集。每组对话由两位采集人围绕一个主题展开,上下文对话与当前的内容逻辑相关。适用于训练大模型多轮对话 (back and forth conversation)、上下文逻辑推理能力,以及端到端对话大模型。
OpenDataLab 收录
EV充电数据合成集
该数据集由我们的模型生成,旨在用于训练,包含约160万次充电事件,涉及3777辆电池电动车,时间跨度为365天。
github 收录
SENTIBENCH
SENTIBENCH是一个综合性的情感分析基准,由哈尔滨工业大学(深圳)的研究团队开发。该数据集包含3个典型类别:基本情感分析、多方面情感分析和细粒度情感分析,覆盖了12个代表性任务及其对应的数据集。它旨在系统地评估LLM在情感分析方面的能力,涵盖从文档到句子级别的情感分类,以及更复杂的情感状态识别和细粒度情感元素分析等任务。
arXiv 收录