five

tytodd/sim-120

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/tytodd/sim-120
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: - config_name: go_emotions features: - name: text dtype: string - name: row_id dtype: string - name: ground_truth struct: - name: labels list: int64 splits: - name: train num_bytes: 5181 num_examples: 50 - name: val num_bytes: 1146 num_examples: 10 download_size: 9255 dataset_size: 6327 - config_name: or_bench_80k features: - name: prompt dtype: string - name: row_id dtype: string - name: ground_truth struct: - name: or_bench_category dtype: string splits: - name: train num_bytes: 8413 num_examples: 50 - name: val num_bytes: 1830 num_examples: 10 download_size: 11369 dataset_size: 10243 configs: - config_name: go_emotions data_files: - split: train path: go_emotions/train-* - split: val path: go_emotions/val-* - config_name: or_bench_80k data_files: - split: train path: or_bench_80k/train-* - split: val path: or_bench_80k/val-* ---
提供机构:
tytodd
搜集汇总
数据集介绍
main_image_url
构建方式
sim-120数据集以精细化的多任务学习导向进行构建,融合了情感识别与指令遵循两大核心场景。其内部整合了go_emotions与or_bench_80k两个子配置,前者聚焦于文本情感标签的多分类任务,每条样本包含原始文本、唯一标识符及由整数列表构成的情感标签;后者则侧重于指令理解与分类,提供提示文本与对应的or_bench类别标签。通过统一的数据结构与标准化的字段命名,该数据集实现了跨任务样本的高效协同与兼容。
特点
sim-120数据集以其精巧的样本规模与明确的多分支结构著称,总计包含60条训练样本与20条验证样本,分别均匀分布于情感分析与指令分类两条支线。每条样本均以清晰的行标识符(row_id)进行索引,便于数据追溯与交叉引用。其双配置设计不仅保障了情感多样性与指令复杂性的平衡呈现,更通过标准化地面真值(ground_truth)字段,为模型在迥异任务间的迁移学习提供了理想的实验土壤。
使用方法
该数据集支持基于config_name参数的灵活加载,用户可通过指定'go_emotions'或'or_bench_80k'配置,方便地调用对应分支的完整数据。数据格式采用典型的键值对结构,适用于常见的深度学习框架与自然语言处理管道,可直接用于监督微调、少样本学习或模型评估。建议研究者将训练集用于参数更新,验证集用于性能监控,从而在多任务场景下系统性地检验模型的泛化能力与指令遵循水平。
背景与挑战
背景概述
sim-120数据集由研究团队精心构建,旨在推动自然语言处理领域中对情感识别与指令理解能力的联合评估。该数据集整合了go_emotions和or_bench_80k两个子集,分别聚焦于细粒度情感分类和开放式指令基准测试,为解决模型在复杂语义场景下的泛化能力提供了关键研究资源。其创建背景源于对现有数据集单一任务导向局限性的反思,通过多维度标注体系捕捉真实世界中文本的情感与意图交织现象。自发布以来,sim-120已成为评估大语言模型多任务协同效能的重要基准,对情感计算与指令遵循的交叉研究产生了深远影响。
当前挑战
数据集面临的核心挑战在于多任务联合学习中的标注冲突与数据稀疏性。go_emotions子集要求模型识别28种细微情感,而or_bench_80k则侧重指令类别判断,两者标签空间的异构性导致模型在联合训练时容易产生梯度竞争。此外,构建过程中需确保情感标签与指令类别在相同文本上的一致性,但人工标注的主观差异和长尾分布使得高质量标注的获取极具挑战。小样本分割(训练集仅50例)进一步加剧了过拟合风险,限制了模型在真实应用中的鲁棒性,亟需引入数据增强或对比学习策略来弥合领域鸿沟。
常用场景
经典使用场景
在情感计算与自然语言处理的交叉领域中,sim-120数据集为多标签情感分类任务提供了精密的实验场域。其go_emotions配置蕴含了文本与细粒度情感标签的映射关系,适用于训练能够捕捉人类情感复杂交织的模型,例如同时识别文本中的惊喜与悲伤等混合情绪。该数据集以精简的样本规模,为研究人员构建和验证轻量级情感分析算法提供了理想起点,尤其适合在小样本学习或模型原型设计阶段,快速迭代探索情感识别的边界。
实际应用
在实际应用层面,sim-120数据集为情感驱动的智能系统提供了坚实的技艺根基。基于该数据集训练的情感分析模型,可被部署于社交媒体舆情监测平台,精准解析用户评论中饱含的复杂情感倾向,进而辅助品牌声誉管理或危机响应决策。此外,在智能客服领域,该数据集赋能对话系统更细腻地觉察用户的情绪波动,从愉悦与挫败并存的反馈中捕捉关键信息,从而优化服务策略,提升人机交互的温度。
衍生相关工作
围绕sim-120数据集,学术界已衍生出若干富有启发的后续工作。部分研究以此为基础,探索多标签情感分类中标签依赖关系的图神经网络建模,通过挖掘情感标签之间的共现拓扑结构,显著提升了分类的语义一致性。另一支脉络则专注于跨语言情感迁移学习,利用该数据集的高度结构化标签体系,在低资源语言上复现细粒度情感分析能力。这些衍生工作不仅扩展了原数据集的应用疆域,也昭示着其在方法论启示层面的持久影响力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作