HLGD(Headline Grouping Dataset)|文本分类数据集|自然语言处理数据集

OpenDataLab2025-03-29 更新2024-05-09 收录

文本分类

自然语言处理

下载链接：

https://opendatalab.org.cn/OpenDataLab/HLGD

下载链接

链接失效反馈

资源简介：

标题分组数据集是新闻标题对的二元分类数据集。对于每对标题，二进制标签指示两个标题是否属于同一组（并描述相同的潜在事件），或者它们是否位于不同的组中。该数据集总共包含 20k 个带注释的标题对，进一步分为训练、验证和测试部分。

提供机构：

OpenDataLab

创建时间：

2022-06-28

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性，12位男性)，以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情，歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常，强烈) 下产生的，另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位，48kHz .wav)，音频-视频 (720p H.264，AAC 48kHz，.mp4) 和仅视频 (无声音)。注意，Actor_18没有歌曲文件。

OpenDataLab 收录

Rail-DB

Rail-DB是由深圳技术大学创建的铁路检测数据集，包含7432对图像及其标注，涵盖多种光照、道路结构和视角条件。数据集中的轨道通过多边形进行标注，并根据背景被分为九种场景。Rail-DB旨在推动铁路检测算法的进步和比较，通过提供多样化的真实世界铁路图像，增强算法的鲁棒性。此外，数据集的创建过程包括从真实世界火车视频中获取图像，通过粗略和精细两个阶段进行标注，确保标注的准确性和完整性。Rail-DB的应用领域主要集中在铁路异常检测，特别是铁路区域的识别，以提高铁路安全和维护效率。

arXiv 收录

553个真实世界的半结构化访谈数据集

该数据集包含553个真实世界的半结构化访谈，每个访谈都与临床诊断结果配对，用于评估抑郁症、焦虑症和创伤后应激障碍等精神健康问题的早期诊断。数据集来自美国多个行为研究项目，参与者回答了五个关于日常生活、挑战性事件、应对策略、不愉快事件和积极经历的标准化问题。访谈被记录并转录，每个访谈的平均长度约为2,955个单词。该数据集旨在为自然语言处理模型提供真实且具有生态效度的基准，以评估其从自然语言中推断精神健康问题的能力。

arXiv 收录

PDT Dataset

PDT数据集是由山东计算机科学中心（国家超级计算济南中心）和齐鲁工业大学（山东省科学院）联合开发的无人机目标检测数据集，专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本，共计5775张图像，涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注，旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术，旨在提高无人机在植物保护中的目标识别精度，解决传统检测模型在实际应用中的不足。

arXiv 收录