feedback-detector-dataset

Hugging Face2026-01-21 更新2026-01-22 收录

下载链接：

https://huggingface.co/datasets/llm-semantic-router/feedback-detector-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个大规模多语言用户反馈分类数据集，包含51,694个示例，分为4个类别：用户满意（SAT，17%）、需要更多信息（NEED_CLARIFICATION，31%）、回答错误（WRONG_ANSWER，39%）和想要不同的内容（WANT_DIFFERENT，13%）。数据集结合了多个公开的对话和投诉数据集，涵盖英语、日语和土耳其语。所有示例均使用OpenAI GPT-OSS-120B在AMD MI300X GPU上标注，标注过程包括确定性输出、结构化JSON输出、重试逻辑和并行处理。数据集适用于微调反馈检测模型、用户满意度分类、客户服务自动化和对话系统评估。

创建时间：

2026-01-21

原始信息汇总

Feedback Detector Dataset 数据集概述

数据集基本信息

名称：Feedback Detector Dataset
地址：https://huggingface.co/datasets/llm-semantic-router/feedback-detector-dataset
语言：英语、日语、土耳其语、多语言
许可协议：Apache 2.0
任务类别：文本分类
标签：反馈检测、用户满意度、对话、客户服务、多语言、amd-mi300x
规模类别：10K<n<100K

数据集描述

这是一个用于4类用户反馈分类的大规模多语言数据集，包含51,694个示例，使用AMD MI300X GPU上的GPT-OSS-120B进行标注。

类别分布

标签	描述	数量	占比
SAT	用户满意	8,649	17%
NEED_CLARIFICATION	用户需要更多信息	16,179	31%
WRONG_ANSWER	系统给出错误响应	19,919	39%
WANT_DIFFERENT	用户想要不同的东西	6,947	13%

数据划分

划分	示例数量
训练集	46,524
验证集	5,170

数据来源

数据集整合了多个公共对话和投诉数据集：

来源	类型	示例数量	语言
consumer_complaints_medium	投诉	~6,000	英语
customer_complaints	投诉	~2,000	英语
multiwoz	任务导向对话	~3,000	英语
sgd	模式引导对话	~3,000	英语
inscit	信息寻求	~2,500	英语
mimics	搜索澄清	~2,000	英语
hazumi	肯定/否定	~1,500	日语
turkish_complaints	投诉	~1,000	土耳其语

标注过程

所有示例均使用OpenAI GPT-OSS-120B模型进行标注，该模型通过vLLM在AMD MI300X GPU上运行，具体配置如下：

温度：0（确定性）
结构化JSON输出
指数退避重试逻辑
垃圾检测和断路器模式
带速率限制的并行处理

硬件配置

组件	规格
GPU	AMD Instinct MI300X
显存	192 GB HBM3
框架	带ROCm的vLLM
模型	OpenAI GPT-OSS-120B

数据模式

每个示例包含以下字段：

text (字符串)：用户反馈文本
label (整数)：数字标签 (0-3)
label_name (字符串)：标签名称 (SAT, NEED_CLARIFICATION, WRONG_ANSWER, WANT_DIFFERENT)
source (字符串)：原始数据集来源

标签映射

python label2id = { "SAT": 0, "NEED_CLARIFICATION": 1, "WRONG_ANSWER": 2, "WANT_DIFFERENT": 3 }

预期用途

微调反馈检测模型（ModernBERT, mmBERT等）
对话AI中的用户满意度分类
客户服务自动化
对话系统评估

引用

如果使用本数据集，请引用： bibtex @dataset{feedback_detector_dataset, title={Feedback Detector Dataset}, author={LLM Semantic Router Team}, year={2025}, publisher={Hugging Face}, url={https://huggingface.co/datasets/llm-semantic-router/feedback-detector-dataset} }

搜集汇总

数据集介绍

构建方式

在对话系统与用户满意度分析领域，构建高质量标注数据集是推动模型性能提升的关键。本数据集通过整合多个公开的对话与投诉语料库，包括consumer_complaints_medium、multiwoz、sgd等来源，覆盖英语、日语和土耳其语的多语言文本。标注过程依托OpenAI GPT-OSS-120B大语言模型，在AMD MI300X GPU上利用vLLM框架进行确定性推理，采用结构化JSON输出与并行处理机制，结合重试逻辑与垃圾检测策略，确保了标注的一致性与可靠性，最终形成了包含51,694条样本的标注数据。

使用方法

为支持对话AI与客户服务自动化研究，该数据集可通过Hugging Face的datasets库直接加载。用户使用load_dataset函数即可获取训练与验证分割，每个样本包含文本、数值标签、标签名称及来源信息。数据适用于微调反馈检测模型，如ModernBERT或mmBERT，也可用于用户满意度分类任务。在实际应用中，开发者可依据提供的标签映射关系，构建分类器以识别对话中的用户反馈类型，进而优化系统响应策略或评估对话系统性能。

背景与挑战

背景概述

随着对话式人工智能与客户服务自动化技术的迅猛发展，准确识别与分类用户反馈成为提升系统交互质量的关键环节。Feedback Detector Dataset 应运而生，由 LLM Semantic Router 团队于2025年构建，旨在为多语言用户反馈分类提供大规模标注数据。该数据集整合了来自多个公开对话与投诉数据源的51,694条样本，涵盖英语、日语、土耳其语等多种语言，并利用基于 AMD MI300X GPU 的 GPT-OSS-120B 模型进行自动化四分类标注，核心研究问题聚焦于对用户满意度、需求澄清、错误答案及不同期望等反馈类型的精准识别，为对话系统评估与优化提供了重要数据支撑。

当前挑战

在用户反馈检测领域，主要挑战在于多语言语境下细粒度情感与意图的准确区分，尤其是当反馈表达隐含歧义或文化特定含义时，传统模型往往难以稳定捕捉语义细微差别。构建该数据集的过程中，团队面临数据源异构性与质量不一的难题，需从多样化的公开数据集中提取并统一格式，同时确保标注一致性；此外，依赖大语言模型进行自动化标注虽提升了效率，但可能引入模型固有偏见，且需设计复杂的重试逻辑与垃圾检测机制以保障标注可靠性，这对计算资源与工程优化提出了较高要求。

常用场景

经典使用场景

在对话系统和客户服务领域，准确识别用户反馈的意图是提升交互质量的核心环节。Feedback Detector Dataset作为一个大规模多语言数据集，其经典使用场景在于为四类用户反馈（满意、需澄清、错误答案、期望不同）的分类任务提供训练与评估基准。研究者通常利用该数据集微调预训练语言模型，如ModernBERT或mmBERT，以构建高效的反馈检测系统，从而优化对话代理的响应策略，增强人机交互的流畅性与准确性。

解决学术问题

该数据集有效解决了对话人工智能中用户反馈自动分类的学术挑战，特别是在多语言环境下细粒度情感与意图识别的难题。通过整合来自消费投诉、任务导向对话及信息寻求等多种公开数据源，并借助GPT-OSS-120B模型进行高质量标注，它为学术界提供了标准化的评估资源。这不仅促进了反馈检测模型的性能比较与创新，还推动了对话系统评估方法的标准化，对自然语言处理领域的进展具有显著意义。

实际应用

在实际应用中，Feedback Detector Dataset被广泛部署于客户服务自动化与对话AI系统。企业可利用该数据集训练模型，实时分析用户反馈，自动分类为满意、需澄清、错误或期望不同等类别，从而快速触发相应的服务流程，如转接人工客服、提供补充信息或修正系统回答。这种应用显著提升了客户支持效率，降低了运营成本，并为多语言服务场景下的用户体验优化提供了可靠的技术支撑。

数据集最近研究