five

KashiwaByte/Args_Quality_Dataset

收藏
Hugging Face2024-07-15 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/KashiwaByte/Args_Quality_Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含一个CSV文件arg_quality_rank_30k.csv,其中包含多个列,如argument(论证)、topic(主题)、set(数据集类型,如训练集、验证集或测试集)、WA(基于加权平均评分函数的质量标签)、MACE-P(基于MACE-P评分函数的质量标签)、stance_WA(基于加权平均评分函数的立场标签)和stance_WA_conf(立场标签的置信度)。数据集还包含通过GPT-3.5-turbo翻译成中文的版本arg_quality_rank_zh.csv。文档详细解释了两种评分方法WA和MACE-P的应用场景和特点,并描述了如何基于WA评分和翻译后的数据集构造训练数据集,进一步划分成训练集、验证集和测试集,以及为不同模型(如GPT、LLAMA、SPARK)构造的SFT数据集。

The dataset includes the original English dataset arg_quality_rank_30k.csv and the translated Chinese dataset arg_quality_rank_zh.csv. The original dataset contains fields such as argument, topic, set, WA score, etc. After translation using GPT-3.5-turbo, the Chinese dataset was generated. Additionally, the dataset describes the application scenarios of two scoring methods, WA and MACE-P, and constructs a training dataset arg_quality_WA.csv based on the WA score. Finally, for the training requirements of different models, SFT datasets were constructed, including GPT-FT, LLAMA-FT, and SPARK-FT, all of which contain argument, stance, set, and WA score.
提供机构:
KashiwaByte
原始信息汇总

数据集概述

原始数据集

  • 文件名:arg_quality_rank_30k.csv
  • 包含列:
    1. argument - 论证内容
    2. topic - 论证的主题上下文
    3. set - 数据集类型(训练、验证或测试)
    4. WA - 根据加权平均评分函数的质量标签
    5. MACE-P - 根据MACE-P评分函数的质量标签
    6. stance_WA - 根据加权平均评分函数的立场标签
    7. stance_WA_conf - 根据加权平均评分函数的立场标签置信度

数据集翻译

  • 翻译后的数据集文件名:arg_quality_rank_zh.csv
  • 翻译工具:GPT-3.5-turbo
  • 翻译任务消耗的Token总数:5535770

两类评分

  • WA(Weighted-Average)
    • 适用场景:需要考虑注释者可靠性的应用场景。
    • 特点:提供渐进的连续尺度,减少非可靠注释者的影响。
  • MACE-P(MACE Probability)
    • 适用场景:需要发现“真实”二元标签的应用场景。
    • 特点:倾向于两个极端值,形成U型直方图。

训练数据集

  • 文件名:arg_quality_WA.csv
  • 包含内容:论证、论点、数据类型和WA评分

训练数据集划分

  • 文件夹:set
  • 划分:
    • 训练集:20975条数据
    • 验证集:6316条数据
    • 测试集:3209条数据

SFT数据集

  • 数据集类型:Supervised Fine-Tuning(SFT)数据集
  • 包含内容:高质量的输入-输出对,用于引导大型语言模型学习特定任务。
  • 具体数据集:
    • GPT-FT:用于GPT微调的数据集,包含论证、论点、数据类型和WA评分。
    • LLAMA-FT:用于类LLAMA开源模型微调的数据集,包含论证、论点、数据类型和WA评分。
    • SPARK-FT:用于SPARK(讯飞星火大模型)微调的数据集,包含论证、论点、数据类型和WA评分。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作