five

zaemyung/writing_prompts_collection

收藏
Hugging Face2024-07-12 更新2024-07-13 收录
下载链接:
https://hf-mirror.com/datasets/zaemyung/writing_prompts_collection
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含26,013个训练样本和4,096个测试样本,主要用于生成支持或反对特定观点的写作指令。数据集的特征包括prompt(提示)和category(类别)。对于CMV(Change My View)样本,使用了Qwen/Qwen2-72B-Instruct模型生成指令,这些指令要求学生在三句话内完成,并且不提及字体大小或列出要点。由于CMV子论坛的性质,部分提示可能具有高度争议性。数据集经过了去重处理,30%的样本被随机选为测试样本,但CMV样本的测试分割已预先提供。

The dataset consists of two main parts: a training set and a test set. The training set contains 26,018 samples, and the test set contains 4,096 samples. The main feature of the dataset is prompt, with data type string. The samples in the dataset are deduplicated from multiple sources, including ChristophSchuhmann/essays-with-instructions, chillies/IELTS_essay_human_feedback, persuade_2.0_human_scores_demo_id_github.csv, and Change My View (CMV). For CMV samples, Qwen/Qwen2-72B-Instruct is used to generate writing instructions that either support or oppose the opinion expressed by the original poster. 30% of the dataset was randomly sampled for testing, except for CMV, where the test split was already provided.
提供机构:
zaemyung
原始信息汇总

数据集概述

许可证

  • Apache 2.0

数据集信息

特征

  • prompt: 类型为字符串
  • category: 类型为字符串

数据分割

  • train:
    • 字节数: 8574860
    • 样本数: 26013
  • test:
    • 字节数: 1393526
    • 样本数: 4096

数据大小

  • 下载大小: 4159673 字节
  • 数据集总大小: 9968386 字节

配置

  • default:
    • train: 路径为 data/train-*
    • test: 路径为 data/test-*

其他信息

  • 数据集已去重。
  • 30% 的数据集样本被随机抽样用于测试,CMV 数据集的测试分割已预先提供。
  • 总样本数:
    • 训练集: 26013 样本
    • 测试集: 4096 样本
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作