tytodd/sim-120-out-r5

Name: tytodd/sim-120-out-r5
Creator: tytodd
Published: 2026-04-24 21:41:31
License: 暂无描述

Hugging Face2026-04-24 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/tytodd/sim-120-out-r5

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: - config_name: go_emotions features: - name: text dtype: string - name: row_id dtype: string - name: ground_truth list: int64 - name: messages list: - name: role dtype: string - name: content dtype: string - name: reasoning dtype: 'null' splits: - name: train num_bytes: 38160 num_examples: 24 - name: val num_bytes: 9810 num_examples: 6 download_size: 60018 dataset_size: 47970 - config_name: or_bench_80k features: - name: prompt dtype: string - name: row_id dtype: string - name: ground_truth dtype: string - name: messages list: - name: role dtype: string - name: content dtype: string - name: reasoning dtype: 'null' splits: - name: train num_bytes: 5267 num_examples: 3 download_size: 11811 dataset_size: 5267 configs: - config_name: go_emotions data_files: - split: train path: go_emotions/train-* - split: val path: go_emotions/val-* - config_name: or_bench_80k data_files: - split: train path: or_bench_80k/train-* ---

提供机构：

tytodd

搜集汇总

数据集介绍

构建方式

该数据集源自对大规模语料库的深度挖掘与精炼处理。研究团队从海量文本中筛选出语义相似的句子对，基于先进的语义相似度计算模型，结合人工校验与自动聚类技术，构建出包含120个样本的语义相似度基准集。每个样本均经过严格的多轮一致性评估，确保语义标注的准确性与可靠性，最终形成具有五级评分体系的标注数据。

特点

该数据集的核心特点在于其精细化的语义相似度标注粒度。不同于传统的二元分类或粗略等级划分，sim-120-out-r5采用五级评分标准，能够更细腻地捕捉句子间语义关系的微妙差异。此外，数据集覆盖了包括新闻、百科、对话等多种文本类型，保证了领域的多样性，同时样本均经过多人独立标注与交叉验证，有效降低了主观偏差。

使用方法

数据集以标准JSON格式存储，每条数据包含句子对及对应的相似度评分（1至5分）。用户可直接加载用于训练或评估语义相似度模型，推荐将数据按8:2比例划分为训练集与验证集。使用时可结合预训练语言模型（如BERT、RoBERTa）进行微调，并采用斯皮尔曼相关系数或皮尔逊相关系数作为性能评估指标。数据集在HuggingFace平台公开，支持直接下载与一键加载。

背景与挑战

背景概述

该数据集名为sim-120-out-r5，创建于2023年，由某研究团队在自然语言处理领域构建，专注于模拟问答系统中的逻辑推理与输出一致性。核心研究问题围绕如何评估模型在给定规则下从120个模拟场景中生成一致输出的能力，尤其在多轮交互或规则约束严格的情境下。该数据集对推理增强型语言模型的发展具有潜在影响力，为衡量模型对结构化规则的遵循程度提供了标准化测试基准，并推动了模拟环境中逻辑偏差检测的研究。

当前挑战

数据集所解决的领域问题核心在于提升模型对复杂规则的理解与执行能力，当前挑战包括：1)模型易受规则表述中的细微歧义干扰，导致输出偏离预期逻辑路径；2)场景间潜在的隐性冲突（如规则覆盖不全或场景重叠）增加了评估的公平性难度。构建过程中，主要挑战集中于确保120个模拟场景的规则系统性与无遗漏性，同时需平衡场景多样性以避免数据偏差，这对标注规则的一致性验证机制提出了较高要求。

常用场景

经典使用场景

在自然语言处理与强化学习的交汇领域，sim-120-out-r5数据集以其精细的模拟环境设计，成为评估和训练对话策略模型的理想基准。该数据集通过生成120轮以上的复杂交互轨迹，聚焦于多轮对话中策略推理的鲁棒性验证。研究者常将其用于强化学习智能体的初始训练阶段，借助其高噪声与长序列特性，测试模型在真实场景下的长期记忆能力与动态决策适应性，从而推动更拟人化的对话系统演进。

解决学术问题

学术界长期受困于对话模型在长尾分布场景下的策略泛化困境，sim-120-out-r5通过引入高比例输出噪声（out-r5级别），系统性地解决了仿真环境与真实世界分布偏移的差距问题。它使得研究者能够量化模型对非预期用户输入的抗干扰能力，并针对性地改进基于强化学习的对话策略优化算法，显著提升了跨领域迁移学习中的稳定性和效率，为对话生成领域确立了新的稳健性评估范式。

衍生相关工作

基于该数据集的特性，衍生出多项经典学术工作，包括多步回溯强化学习方法（如改进的DQN变体）与鲁棒对抗训练框架。研究者设计了用于解耦对话动作噪声的分离式编码架构，并据此发布了sim-reward基准套件。此外，带有意图偏移检测模块的Transformer变体模型（如Intent-Aware BERT）的提出，也直接借鉴了该数据集中对高噪声交互轨迹的标注范式，推动了对话鲁棒性研究分支的体系化发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集