akomma/uss-ratings-dataset

Name: akomma/uss-ratings-dataset
Creator: akomma
Published: 2023-06-20 20:18:47
License: 暂无描述

Hugging Face2023-06-20 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/akomma/uss-ratings-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: mit task_categories: - text-classification - zero-shot-classification - conversational language: - en pretty_name: uss-ratings-dataset size_categories: - 10K<n<100K --- ### Dataset Description - **Homepage:** https://github.com/sunnweiwei/user-satisfaction-simulation - **Repository:** https://github.com/sunnweiwei/user-satisfaction-simulation - **Paper:** https://arxiv.org/pdf/2105.03748.pdf - **View records using Datasette:** [datasette-link](https://lite.datasette.io/?parquet=https%3A%2F%2Fhuggingface.co%2Fdatasets%2Fakomma%2Fuss-ratings-dataset%2Fresolve%2Fmain%2Fuss-ratings-dataset-datasette.parquet#/data/uss-ratings-dataset-datasette) ### Dataset Summary - Dialogs Quality Dataset - With both turn-level and dialog-level ratings provided on a scale of 1 to 5 by human annotators. - Each task has been annotated by multiple annotators. - Contains annotated dialogs from 4 different datasets (SGD, MultiWoz, ReDial, CCPE) - Total 34358 turns from 3500 dialogs |Dataset|Dialogs|Turns | |-------|------:|-----:| |SGD | 1000 | 11833| |MWOZ | 1000 | 10553| |Redial | 1000 | 6792 | |CCPE | 500 | 5180 | ### Column Definitions |Column |Type |Example Value |Description | |-------------------|-------|-------------------------|-----------------------------------------------| |split | str | CCPE;MWOZ;SGD;Redial | dataset name | |session_idx | int | 1 | dialog identifier | |turn_idx | int | 1 | turn identifier within a dialog | |tree_idx | int | 1 | tree identifier within a turn (is all 1s here)| |system | str | Do you like movies | system message | |user | str | No I don't like | user message | |turn_scores | list | [3; 2; 2] | list of turn-level quality scores from different human annotations| |mean_turn_rating | float | 2.33 | mean of turn-level annotator scores | |mode_turn_rating | int | 2 | mode of turn-level annotator scores | |dialog_scores | list | [3; 3; 3] | list of dialog-level quality scores from different human annotations| |mean_dialog_rating | float | 3.00 | mean of dialog-level annotator scores | |mode_dialog_rating | int | 3 | mode of dialog-level annotator scores | ### Dataset Description - **Homepage:** https://github.com/sunnweiwei/user-satisfaction-simulation - **Repository:** https://github.com/sunnweiwei/user-satisfaction-simulation - **Paper:** https://arxiv.org/pdf/2105.03748.pdf - **View records using Datasette:** [datasette-link](https://lite.datasette.io/?parquet=https%3A%2F%2Fhuggingface.co%2Fdatasets%2Fakomma%2Fuss-ratings-dataset%2Fresolve%2Fmain%2Fuss-ratings-dataset-datasette.parquet#/data/uss-ratings-dataset-datasette)

许可证：MIT 开源许可证任务类别： - 文本分类 - 零样本分类（Zero-shot） - 对话式任务语言：英语展示名称：uss-ratings-dataset 样本量区间：10000 < 样本数 < 100000 ### 数据集说明 - **主页**：https://github.com/sunnweiwei/user-satisfaction-simulation - **代码仓库**：https://github.com/sunnweiwei/user-satisfaction-simulation - **相关论文**：https://arxiv.org/pdf/2105.03748.pdf - **使用 Datasette 查看数据记录**：[datasette-link](https://lite.datasette.io/?parquet=https%3A%2F%2Fhuggingface.co%2Fdatasets%2Fakomma%2Fuss-ratings-dataset%2Fresolve%2Fmain%2Fuss-ratings-dataset-datasette.parquet#/data/uss-ratings-dataset-datasette) ### 数据集概述 - 对话质量数据集 - 包含由人类标注者（human annotators）给出的1-5分制的轮次级（turn-level）与对话级（dialog-level）质量评分 - 每项任务均由多名标注者完成标注 - 涵盖来自SGD、MultiWoz、ReDial、CCPE共4个不同数据集的标注对话 - 总计包含3500个对话中的34358个对话轮次 | 数据集 | 对话数 | 轮次数 | |-------|-------:|-------:| | SGD | 1000 | 11833 | | MWOZ | 1000 | 10553 | | Redial| 1000 | 6792 | | CCPE | 500 | 5180 | ### 列定义 | 列名 | 数据类型 | 示例值 | 说明 | |---------------------|----------|-------------------------|-----------------------------------------------| | split | 字符串 | CCPE;MWOZ;SGD;Redial | 数据集名称 | | session_idx | 整数 | 1 | 对话标识符 | | turn_idx | 整数 | 1 | 对话内的轮次标识符 | | tree_idx | 整数 | 1 | 轮次内的树标识符（本数据集所有值均为1） | | system | 字符串 | Do you like movies | 系统回复消息 | | user | 字符串 | No I don't like | 用户消息 | | turn_scores | 列表 | [3; 2; 2] | 来自不同人类标注者的轮次级质量评分列表 | | mean_turn_rating | 浮点数 | 2.33 | 轮次级标注评分的平均值 | | mode_turn_rating | 整数 | 2 | 轮次级标注评分的众数 | | dialog_scores | 列表 | [3; 3; 3] | 来自不同人类标注者的对话级质量评分列表 | | mean_dialog_rating | 浮点数 | 3.00 | 对话级标注评分的平均值 | | mode_dialog_rating | 整数 | 3 | 对话级标注评分的众数 | ### 数据集说明 - **主页**：https://github.com/sunnweiwei/user-satisfaction-simulation - **代码仓库**：https://github.com/sunnweiwei/user-satisfaction-simulation - **相关论文**：https://arxiv.org/pdf/2105.03748.pdf - **使用 Datasette 查看数据记录**：[datasette-link](https://lite.datasette.io/?parquet=https%3A%2F%2Fhuggingface.co%2Fdatasets%2Fakomma%2Fuss-ratings-dataset%2Fresolve%2Fmain%2Fuss-ratings-dataset-datasette.parquet#/data/uss-ratings-dataset-datasette)

提供机构：

akomma

原始信息汇总

数据集概述

名称: uss-ratings-dataset
许可: MIT
任务类别:
- 文本分类
- 零样本分类
- 对话
语言: 英语
大小: 10K<n<100K

数据集详情

描述:
- 对话质量数据集，包含由人工标注者提供的1到5级的回合级和对话级评分。
- 每个任务均由多名标注者进行标注。
- 包含来自4个不同数据集（SGD, MultiWoz, ReDial, CCPE）的标注对话。
- 总计34358个回合，来自3500个对话。
数据集细分:

数据集对话数回合数

SGD 1000 11833

MWOZ 1000 10553

Redial 1000 6792

CCPE 500 5180

列定义:

列名	类型	示例值	描述
split	str	CCPE;MWOZ;SGD;Redial	数据集名称
session_idx	int	1	对话标识符
turn_idx	int	1	对话内回合标识符
tree_idx	int	1	回合内树标识符（此处均为1）
system	str	Do you like movies	系统消息
user	str	No I dont like	用户消息
turn_scores	list	[3; 2; 2]	不同人工标注的回合级质量分数列表
mean_turn_rating	float	2.33	回合级标注者分数的平均值
mode_turn_rating	int	2	回合级标注者分数的众数
dialog_scores	list	[3; 3; 3]	不同人工标注的对话级质量分数列表
mean_dialog_rating	float	3.00	对话级标注者分数的平均值
mode_dialog_rating	int	3	对话级标注者分数的众数

数据集使用

查看记录: 可通过Datasette查看数据集记录。

搜集汇总

数据集介绍

构建方式

在对话系统评估领域，构建高质量的用户满意度数据集至关重要。该数据集通过整合四个知名对话数据集（SGD、MultiWoz、ReDial、CCPE）的对话内容，形成基础语料。随后，研究团队组织多名人类标注者对每个对话回合及整体对话进行独立的质量评分，评分采用1至5分的李克特量表。最终，数据集收录了3500个对话共计34358个回合，并计算了每个样本在回合层面和对话层面的评分均值与众数，确保了评估数据的丰富性与统计可靠性。

使用方法

在对话质量评估与用户满意度建模的研究中，该数据集可直接用于训练或评估文本分类或零样本分类模型。研究者可依据‘mean_turn_rating’或‘mean_dialog_rating’字段作为监督信号，构建预测模型；亦可利用‘turn_scores’和‘dialog_scores’中的原始评分列表进行标注者间一致性分析或不确定性建模。数据集的‘split’字段清晰标识了源数据集，便于进行跨领域的对比实验或迁移学习研究。

背景与挑战

背景概述

在对话系统研究领域，评估模型生成对话的质量一直是核心难题。2021年，由研究人员sunnweiwei等人创建的uss-ratings-dataset应运而生，旨在为对话质量评估提供细粒度的人工标注基准。该数据集整合了SGD、MultiWoz、ReDial和CCPE四个知名对话数据集，涵盖了任务导向与开放域对话场景。其创新之处在于同时提供了对话轮次级别和整个对话级别的多标注者评分，为训练和验证用户满意度模拟模型奠定了数据基础，显著推动了对话系统评估从单一指标向多维、人性化判定的演进。

当前挑战

该数据集致力于解决对话系统评估中用户满意度量化这一根本挑战，其核心在于如何准确捕捉并标准化人类对对话流畅性、相关性与实用性的主观感知。在构建过程中，挑战主要源于多源数据整合与高质量标注的复杂性。首先，融合不同领域和结构的对话数据需解决格式统一与语义对齐问题。其次，获取可靠的人工标注面临主观性偏差的困扰，需设计严谨的标注指南与质量控制流程，以确保跨轮次与跨对话评分的一致性，这对标注成本与信度提出了双重考验。

常用场景

经典使用场景

在对话系统评估领域，该数据集为研究者提供了多维度的人工标注质量评分，涵盖回合级和对话级两个层面。通过整合来自SGD、MultiWoz、ReDial和CCPE四个知名对话数据集的样本，它构建了一个规模可观的基准测试平台。经典使用场景包括训练和验证自动对话质量评估模型，帮助系统开发者量化用户满意度，从而优化对话代理的响应策略。

解决学术问题

该数据集有效解决了对话系统中用户满意度量化评估的难题，为缺乏统一评价标准的研究社区提供了可靠的数据支撑。它通过多标注者机制降低了主观偏差，使得模型能够学习到更稳健的质量预测特征。其意义在于推动了自动评估方法的发展，减少了依赖昂贵人工评估的需求，加速了对话系统的迭代优化进程。

实际应用

在实际应用中，该数据集被广泛用于商业对话系统的质量监控与优化。企业可基于其标注训练内部评估模型，实时检测客服聊天机器人或虚拟助手的交互质量，识别低满意度对话片段。这有助于及时调整系统策略，提升用户体验，降低人工干预成本，在智能客服、娱乐推荐等场景中发挥关键作用。

数据集最近研究