KashiwaByte/Args_Quality_Dataset
收藏Hugging Face2024-07-15 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/KashiwaByte/Args_Quality_Dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含一个CSV文件arg_quality_rank_30k.csv,其中包含多个列,如argument(论证)、topic(主题)、set(数据集类型,如训练集、验证集或测试集)、WA(基于加权平均评分函数的质量标签)、MACE-P(基于MACE-P评分函数的质量标签)、stance_WA(基于加权平均评分函数的立场标签)和stance_WA_conf(立场标签的置信度)。数据集还包含通过GPT-3.5-turbo翻译成中文的版本arg_quality_rank_zh.csv。文档详细解释了两种评分方法WA和MACE-P的应用场景和特点,并描述了如何基于WA评分和翻译后的数据集构造训练数据集,进一步划分成训练集、验证集和测试集,以及为不同模型(如GPT、LLAMA、SPARK)构造的SFT数据集。
The dataset includes the original English dataset arg_quality_rank_30k.csv and the translated Chinese dataset arg_quality_rank_zh.csv. The original dataset contains fields such as argument, topic, set, WA score, etc. After translation using GPT-3.5-turbo, the Chinese dataset was generated. Additionally, the dataset describes the application scenarios of two scoring methods, WA and MACE-P, and constructs a training dataset arg_quality_WA.csv based on the WA score. Finally, for the training requirements of different models, SFT datasets were constructed, including GPT-FT, LLAMA-FT, and SPARK-FT, all of which contain argument, stance, set, and WA score.
提供机构:
KashiwaByte
原始信息汇总
数据集概述
原始数据集
- 文件名:
arg_quality_rank_30k.csv - 包含列:
argument- 论证内容topic- 论证的主题上下文set- 数据集类型(训练、验证或测试)WA- 根据加权平均评分函数的质量标签MACE-P- 根据MACE-P评分函数的质量标签stance_WA- 根据加权平均评分函数的立场标签stance_WA_conf- 根据加权平均评分函数的立场标签置信度
数据集翻译
- 翻译后的数据集文件名:
arg_quality_rank_zh.csv - 翻译工具:GPT-3.5-turbo
- 翻译任务消耗的Token总数:5535770
两类评分
- WA(Weighted-Average):
- 适用场景:需要考虑注释者可靠性的应用场景。
- 特点:提供渐进的连续尺度,减少非可靠注释者的影响。
- MACE-P(MACE Probability):
- 适用场景:需要发现“真实”二元标签的应用场景。
- 特点:倾向于两个极端值,形成U型直方图。
训练数据集
- 文件名:
arg_quality_WA.csv - 包含内容:论证、论点、数据类型和WA评分
训练数据集划分
- 文件夹:
set - 划分:
- 训练集:20975条数据
- 验证集:6316条数据
- 测试集:3209条数据
SFT数据集
- 数据集类型:Supervised Fine-Tuning(SFT)数据集
- 包含内容:高质量的输入-输出对,用于引导大型语言模型学习特定任务。
- 具体数据集:
- GPT-FT:用于GPT微调的数据集,包含论证、论点、数据类型和WA评分。
- LLAMA-FT:用于类LLAMA开源模型微调的数据集,包含论证、论点、数据类型和WA评分。
- SPARK-FT:用于SPARK(讯飞星火大模型)微调的数据集,包含论证、论点、数据类型和WA评分。



