yyu/reddit-attrprompt

Hugging Face2023-09-13 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/yyu/reddit-attrprompt

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于论文《Large Language Model as Attributed Training Data Generator: A Tale of Diversity and Bias》中。数据集包含多个文件，包括标签文件、原始训练集、验证集、测试集，以及通过简单提示和属性提示生成的训练数据。数据集主要用于文本分类任务，涉及社交媒体领域，语言为英语，数据规模在10K到100K之间。

提供机构：

yyu

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 文本分类
语言: 英语
标签: 社交媒体
数据集大小: 10K<n<100K

数据集内容

label.txt: 类别标签名称
train.jsonl: 原始训练集
valid.jsonl: 原始验证集
test.jsonl: 原始测试集
simprompt.jsonl: 通过简单提示生成的训练数据
attrprompt.jsonl: 通过属性提示生成的训练数据

引用信息

若使用此数据集进行研究，请引用以下论文:
- Yu, Yue et al. "Large Language Model as Attributed Training Data Generator: A Tale of Diversity and Bias." arXiv preprint arXiv:2306.15895 (2023).

5,000+

优质数据集

54 个

任务类型

进入经典数据集