KashiwaByte/Args_Quality_Dataset

Name: KashiwaByte/Args_Quality_Dataset
Creator: KashiwaByte
Published: 2024-07-15 02:23:20
License: 暂无描述

Hugging Face2024-07-15 更新2024-07-22 收录

下载链接：

https://hf-mirror.com/datasets/KashiwaByte/Args_Quality_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含一个CSV文件arg_quality_rank_30k.csv，其中包含多个列，如argument（论证）、topic（主题）、set（数据集类型，如训练集、验证集或测试集）、WA（基于加权平均评分函数的质量标签）、MACE-P（基于MACE-P评分函数的质量标签）、stance_WA（基于加权平均评分函数的立场标签）和stance_WA_conf（立场标签的置信度）。数据集还包含通过GPT-3.5-turbo翻译成中文的版本arg_quality_rank_zh.csv。文档详细解释了两种评分方法WA和MACE-P的应用场景和特点，并描述了如何基于WA评分和翻译后的数据集构造训练数据集，进一步划分成训练集、验证集和测试集，以及为不同模型（如GPT、LLAMA、SPARK）构造的SFT数据集。

The dataset includes the original English dataset arg_quality_rank_30k.csv and the translated Chinese dataset arg_quality_rank_zh.csv. The original dataset contains fields such as argument, topic, set, WA score, etc. After translation using GPT-3.5-turbo, the Chinese dataset was generated. Additionally, the dataset describes the application scenarios of two scoring methods, WA and MACE-P, and constructs a training dataset arg_quality_WA.csv based on the WA score. Finally, for the training requirements of different models, SFT datasets were constructed, including GPT-FT, LLAMA-FT, and SPARK-FT, all of which contain argument, stance, set, and WA score.

提供机构：

KashiwaByte

原始信息汇总

数据集概述

原始数据集

文件名：arg_quality_rank_30k.csv
包含列：
1. argument - 论证内容
2. topic - 论证的主题上下文
3. set - 数据集类型（训练、验证或测试）
4. WA - 根据加权平均评分函数的质量标签
5. MACE-P - 根据MACE-P评分函数的质量标签
6. stance_WA - 根据加权平均评分函数的立场标签
7. stance_WA_conf - 根据加权平均评分函数的立场标签置信度

数据集翻译

翻译后的数据集文件名：arg_quality_rank_zh.csv
翻译工具：GPT-3.5-turbo
翻译任务消耗的Token总数：5535770

两类评分

WA（Weighted-Average）：
- 适用场景：需要考虑注释者可靠性的应用场景。
- 特点：提供渐进的连续尺度，减少非可靠注释者的影响。
MACE-P（MACE Probability）：
- 适用场景：需要发现“真实”二元标签的应用场景。
- 特点：倾向于两个极端值，形成U型直方图。

训练数据集

文件名：arg_quality_WA.csv
包含内容：论证、论点、数据类型和WA评分

训练数据集划分

文件夹：set
划分：
- 训练集：20975条数据
- 验证集：6316条数据
- 测试集：3209条数据

SFT数据集

数据集类型：Supervised Fine-Tuning（SFT）数据集
包含内容：高质量的输入-输出对，用于引导大型语言模型学习特定任务。
具体数据集：
- GPT-FT：用于GPT微调的数据集，包含论证、论点、数据类型和WA评分。
- LLAMA-FT：用于类LLAMA开源模型微调的数据集，包含论证、论点、数据类型和WA评分。
- SPARK-FT：用于SPARK（讯飞星火大模型）微调的数据集，包含论证、论点、数据类型和WA评分。

5,000+

优质数据集

54 个

任务类型

进入经典数据集