tytodd/sim-20
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/tytodd/sim-20
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
- config_name: go_emotions
features:
- name: text
dtype: string
- name: row_id
dtype: string
- name: ground_truth
struct:
- name: labels
list: int64
splits:
- name: train
num_bytes: 445
num_examples: 5
- name: val
num_bytes: 665
num_examples: 5
download_size: 5405
dataset_size: 1110
- config_name: or_bench_80k
features:
- name: prompt
dtype: string
- name: row_id
dtype: string
- name: ground_truth
struct:
- name: or_bench_category
dtype: string
splits:
- name: train
num_bytes: 809
num_examples: 5
- name: val
num_bytes: 830
num_examples: 5
download_size: 5899
dataset_size: 1639
configs:
- config_name: go_emotions
data_files:
- split: train
path: go_emotions/train-*
- split: val
path: go_emotions/val-*
- config_name: or_bench_80k
data_files:
- split: train
path: or_bench_80k/train-*
- split: val
path: or_bench_80k/val-*
---
提供机构:
tytodd
搜集汇总
数据集介绍

构建方式
sim-20数据集整合了两个不同领域的子集:go_emotions与or_bench_80k,旨在提供一个多任务学习的基准。go_emotions子集包含文本数据及其对应的情感标签(一组整数表示),用于情感分类任务;or_bench_80k子集则包含提示文本及其所属的OR-Bench类别标签。每个子集均划分为训练集与验证集,各含5个样本,数据集整体下载大小约11.3KB。这种结构化的构建方式,使得研究人员能够在一个统一框架下探索不同任务的模型表现。
特点
该数据集的核心特点在于其多配置设计与小样本规模。通过go_emotions和or_bench_80k两个配置,sim-20同时覆盖了情感分类与类别识别两种自然语言处理任务,为模型的多任务学习能力评估提供了便利。每个配置的数据量虽小(训练和验证集各仅5条),但具有明确的标签体系,适合用于快速原型测试或方法验证。此外,数据集提供了开箱即用的HuggingFace格式,便于直接加载与使用。
使用方法
使用sim-20数据集时,用户可通过HuggingFace的datasets库轻松加载指定配置。例如,加载go_emotions配置可使用`load_dataset('sim-20', 'go_emotions')`,加载or_bench_80k配置则同理。加载后,数据将以字典形式包含文本(或提示)、行ID及ground_truth字段,其中ground_truth的结构依配置而异,需根据具体任务进行解析。由于数据量较小,该数据集尤其适合用于调试模型、构建快速演示或进行小规模对比实验,使用时需注意根据任务类型选择合适的输出层与损失函数。
背景与挑战
背景概述
Sim-20数据集诞生于情感计算与开放域推理评估的交汇点,由研究机构精心构建,旨在系统性地检验语言模型在多标签情感识别与开放式指令跟随两个核心维度上的能力。该数据集巧妙整合了GoEmotions与OR-Bench-80k两个子集,前者聚焦于从文本中精确判别细粒度情绪类别,后者则考核模型对开放领域指令的响应质量。通过将情感理解与推理任务纳入同一评估框架,Sim-20为揭示当前大语言模型在情感模式捕捉与泛化推理之间的权衡提供了独特视角,对推动人机交互中情感智能的发展具有标杆意义。
当前挑战
该数据集的核心挑战在于双任务协同评估的难度:一方面,GoEmotions子集所涉及的28类情感标签具有高度重叠与模糊边界,要求模型具备超越简单二分类的精细判别能力,甚至能捕捉隐含的复杂情绪;另一方面,OR-Bench-80k强调开放域指令的多样性,对模型的长上下文理解与创造性生成提出了严苛要求。构建过程中,确保两种任务标注的一致性与平衡性——如情感标签的歧义消解与开放域答案的客观性——成为主要技术难题,同时数据规模有限(各子集仅10个样本)也考验着评估泛化性的方法论创新。
常用场景
经典使用场景
sim-20数据集在情感计算与自然语言处理领域中,被广泛用于多标签情感分类任务的评测与基准测试。其go_emotions子集包含了细粒度的情感标签体系,能够支持模型对复杂情感状态进行捕捉与区分。研究者通常利用该数据集来评估模型在情感识别、情绪强度判断以及情感极性分析等方面的表现,进而推动情感理解技术的精细化发展。
衍生相关工作
基于sim-20数据集的特性,学术界衍生出了一系列经典工作,包括多标签情感分类模型的情感层级表示学习、基于预训练语言模型的情感迁移学习研究,以及针对情感标签不平衡问题的损失函数优化策略。同时,or_bench_80k子集激发了指令微调与多任务学习的研究热潮,相关成果如情感增强的指令微调框架、情感感知的对话模型等,均受益于该数据集所提供的精细标注与开放领域评测环境。
数据集最近研究
最新研究方向
sim-20数据集聚焦于多标签情感分类与开放式基准评测的融合研究,当前前沿方向在于利用其go_emotions子集探索细粒度情感推断与上下文建模,同时通过or_bench_80k子集推动大语言模型在开放式任务中的鲁棒性评估。这一双轨设计呼应了情感计算领域从离散标签向连续情感空间过渡的趋势,并为聊天机器人与社交媒体的情感对齐提供了标准化测试床,其小样本特性更激发了少样本学习与提示工程方法的创新,对构建具备情感理解能力的通用AI具有里程碑意义。
以上内容由遇见数据集搜集并总结生成



