feedback-detector-dataset
收藏Hugging Face2026-01-21 更新2026-01-22 收录
下载链接:
https://huggingface.co/datasets/llm-semantic-router/feedback-detector-dataset
下载链接
链接失效反馈官方服务:
资源简介:
这是一个大规模多语言用户反馈分类数据集,包含51,694个示例,分为4个类别:用户满意(SAT,17%)、需要更多信息(NEED_CLARIFICATION,31%)、回答错误(WRONG_ANSWER,39%)和想要不同的内容(WANT_DIFFERENT,13%)。数据集结合了多个公开的对话和投诉数据集,涵盖英语、日语和土耳其语。所有示例均使用OpenAI GPT-OSS-120B在AMD MI300X GPU上标注,标注过程包括确定性输出、结构化JSON输出、重试逻辑和并行处理。数据集适用于微调反馈检测模型、用户满意度分类、客户服务自动化和对话系统评估。
创建时间:
2026-01-21
原始信息汇总
Feedback Detector Dataset 数据集概述
数据集基本信息
- 名称:Feedback Detector Dataset
- 地址:https://huggingface.co/datasets/llm-semantic-router/feedback-detector-dataset
- 语言:英语、日语、土耳其语、多语言
- 许可协议:Apache 2.0
- 任务类别:文本分类
- 标签:反馈检测、用户满意度、对话、客户服务、多语言、amd-mi300x
- 规模类别:10K<n<100K
数据集描述
这是一个用于4类用户反馈分类的大规模多语言数据集,包含51,694个示例,使用AMD MI300X GPU上的GPT-OSS-120B进行标注。
类别分布
| 标签 | 描述 | 数量 | 占比 |
|---|---|---|---|
| SAT | 用户满意 | 8,649 | 17% |
| NEED_CLARIFICATION | 用户需要更多信息 | 16,179 | 31% |
| WRONG_ANSWER | 系统给出错误响应 | 19,919 | 39% |
| WANT_DIFFERENT | 用户想要不同的东西 | 6,947 | 13% |
数据划分
| 划分 | 示例数量 |
|---|---|
| 训练集 | 46,524 |
| 验证集 | 5,170 |
数据来源
数据集整合了多个公共对话和投诉数据集:
| 来源 | 类型 | 示例数量 | 语言 |
|---|---|---|---|
| consumer_complaints_medium | 投诉 | ~6,000 | 英语 |
| customer_complaints | 投诉 | ~2,000 | 英语 |
| multiwoz | 任务导向对话 | ~3,000 | 英语 |
| sgd | 模式引导对话 | ~3,000 | 英语 |
| inscit | 信息寻求 | ~2,500 | 英语 |
| mimics | 搜索澄清 | ~2,000 | 英语 |
| hazumi | 肯定/否定 | ~1,500 | 日语 |
| turkish_complaints | 投诉 | ~1,000 | 土耳其语 |
标注过程
所有示例均使用OpenAI GPT-OSS-120B模型进行标注,该模型通过vLLM在AMD MI300X GPU上运行,具体配置如下:
- 温度:0(确定性)
- 结构化JSON输出
- 指数退避重试逻辑
- 垃圾检测和断路器模式
- 带速率限制的并行处理
硬件配置
| 组件 | 规格 |
|---|---|
| GPU | AMD Instinct MI300X |
| 显存 | 192 GB HBM3 |
| 框架 | 带ROCm的vLLM |
| 模型 | OpenAI GPT-OSS-120B |
数据模式
每个示例包含以下字段:
text(字符串):用户反馈文本label(整数):数字标签 (0-3)label_name(字符串):标签名称 (SAT, NEED_CLARIFICATION, WRONG_ANSWER, WANT_DIFFERENT)source(字符串):原始数据集来源
标签映射
python label2id = { "SAT": 0, "NEED_CLARIFICATION": 1, "WRONG_ANSWER": 2, "WANT_DIFFERENT": 3 }
预期用途
- 微调反馈检测模型(ModernBERT, mmBERT等)
- 对话AI中的用户满意度分类
- 客户服务自动化
- 对话系统评估
引用
如果使用本数据集,请引用: bibtex @dataset{feedback_detector_dataset, title={Feedback Detector Dataset}, author={LLM Semantic Router Team}, year={2025}, publisher={Hugging Face}, url={https://huggingface.co/datasets/llm-semantic-router/feedback-detector-dataset} }
搜集汇总
数据集介绍

构建方式
在对话系统与用户满意度分析领域,构建高质量标注数据集是推动模型性能提升的关键。本数据集通过整合多个公开的对话与投诉语料库,包括consumer_complaints_medium、multiwoz、sgd等来源,覆盖英语、日语和土耳其语的多语言文本。标注过程依托OpenAI GPT-OSS-120B大语言模型,在AMD MI300X GPU上利用vLLM框架进行确定性推理,采用结构化JSON输出与并行处理机制,结合重试逻辑与垃圾检测策略,确保了标注的一致性与可靠性,最终形成了包含51,694条样本的标注数据。
使用方法
为支持对话AI与客户服务自动化研究,该数据集可通过Hugging Face的datasets库直接加载。用户使用load_dataset函数即可获取训练与验证分割,每个样本包含文本、数值标签、标签名称及来源信息。数据适用于微调反馈检测模型,如ModernBERT或mmBERT,也可用于用户满意度分类任务。在实际应用中,开发者可依据提供的标签映射关系,构建分类器以识别对话中的用户反馈类型,进而优化系统响应策略或评估对话系统性能。
背景与挑战
背景概述
随着对话式人工智能与客户服务自动化技术的迅猛发展,准确识别与分类用户反馈成为提升系统交互质量的关键环节。Feedback Detector Dataset 应运而生,由 LLM Semantic Router 团队于2025年构建,旨在为多语言用户反馈分类提供大规模标注数据。该数据集整合了来自多个公开对话与投诉数据源的51,694条样本,涵盖英语、日语、土耳其语等多种语言,并利用基于 AMD MI300X GPU 的 GPT-OSS-120B 模型进行自动化四分类标注,核心研究问题聚焦于对用户满意度、需求澄清、错误答案及不同期望等反馈类型的精准识别,为对话系统评估与优化提供了重要数据支撑。
当前挑战
在用户反馈检测领域,主要挑战在于多语言语境下细粒度情感与意图的准确区分,尤其是当反馈表达隐含歧义或文化特定含义时,传统模型往往难以稳定捕捉语义细微差别。构建该数据集的过程中,团队面临数据源异构性与质量不一的难题,需从多样化的公开数据集中提取并统一格式,同时确保标注一致性;此外,依赖大语言模型进行自动化标注虽提升了效率,但可能引入模型固有偏见,且需设计复杂的重试逻辑与垃圾检测机制以保障标注可靠性,这对计算资源与工程优化提出了较高要求。
常用场景
经典使用场景
在对话系统和客户服务领域,准确识别用户反馈的意图是提升交互质量的核心环节。Feedback Detector Dataset作为一个大规模多语言数据集,其经典使用场景在于为四类用户反馈(满意、需澄清、错误答案、期望不同)的分类任务提供训练与评估基准。研究者通常利用该数据集微调预训练语言模型,如ModernBERT或mmBERT,以构建高效的反馈检测系统,从而优化对话代理的响应策略,增强人机交互的流畅性与准确性。
解决学术问题
该数据集有效解决了对话人工智能中用户反馈自动分类的学术挑战,特别是在多语言环境下细粒度情感与意图识别的难题。通过整合来自消费投诉、任务导向对话及信息寻求等多种公开数据源,并借助GPT-OSS-120B模型进行高质量标注,它为学术界提供了标准化的评估资源。这不仅促进了反馈检测模型的性能比较与创新,还推动了对话系统评估方法的标准化,对自然语言处理领域的进展具有显著意义。
实际应用
在实际应用中,Feedback Detector Dataset被广泛部署于客户服务自动化与对话AI系统。企业可利用该数据集训练模型,实时分析用户反馈,自动分类为满意、需澄清、错误或期望不同等类别,从而快速触发相应的服务流程,如转接人工客服、提供补充信息或修正系统回答。这种应用显著提升了客户支持效率,降低了运营成本,并为多语言服务场景下的用户体验优化提供了可靠的技术支撑。
数据集最近研究
最新研究方向
在对话系统与客户服务自动化领域,用户反馈的精准分类成为提升人工智能交互质量的关键。该数据集凭借其大规模多语言特性及基于AMD MI300X GPU与GPT-OSS-120B的先进标注技术,正推动前沿研究聚焦于跨语言反馈检测模型的统一架构探索。当前热点集中于利用此类高质量标注数据,训练如ModernBERT、mmBERT等预训练模型,以实现在复杂对话场景中自动识别用户满意度、澄清需求及错误回应,进而优化智能客服系统的实时响应能力与个性化服务。这一进展不仅加速了多语言对话评估标准的建立,也为全球范围内客户服务自动化的可靠部署提供了坚实的数据基础。
以上内容由遇见数据集搜集并总结生成



