five

isarth/chatgpt-news-articles

收藏
Hugging Face2023-04-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/isarth/chatgpt-news-articles
下载链接
链接失效反馈
官方服务:
资源简介:
ChatGPT CNN/DailyMail数据集是原始CNN/DailyMail英语新闻文章数据集的一个小样本,包含25,000篇独特的新闻文章。每篇由CNN和Daily Mail记者撰写的文章都有一篇由ChatGPT根据人类标注者提供的高亮部分撰写的文章。该数据集可用于研究人类和ChatGPT在新闻写作中的语言比较。数据集的结构包括文章、高亮部分、ID和ChatGPT生成的文章。数据集分为训练集和测试集,分别包含20,000和5,000个实例。

ChatGPT CNN/DailyMail数据集是原始CNN/DailyMail英语新闻文章数据集的一个小样本,包含25,000篇独特的新闻文章。每篇由CNN和Daily Mail记者撰写的文章都有一篇由ChatGPT根据人类标注者提供的高亮部分撰写的文章。该数据集可用于研究人类和ChatGPT在新闻写作中的语言比较。数据集的结构包括文章、高亮部分、ID和ChatGPT生成的文章。数据集分为训练集和测试集,分别包含20,000和5,000个实例。
提供机构:
isarth
原始信息汇总

数据集概述

数据集名称

"chatgpt-news-articles"

数据集描述

该数据集包含25,000篇独特的英文新闻文章,每篇文章均由CNN和Daily Mail的记者撰写,并由ChatGPT根据人类注释者提供的高亮内容重写。此数据集支持研究人类与ChatGPT新闻写作之间的语言比较。

语言

数据集语言为英语(en-US和en-GB)。

数据集结构

数据实例

每个实例包含以下字段:

  • id: 字符串,文章来源URL的SHA1哈希值。
  • article: 字符串,由记者撰写的新闻文章。
  • highlights: 字符串,文章作者撰写的高亮内容。
  • chatgpt: 字符串,由ChatGPT撰写的新闻文章。

数据字段统计

  • article: 平均字数358。
  • chatgpt: 平均字数352。
  • highlights: 平均字数42。

数据分割

  • 训练集(train): 20,000个实例。
  • 测试集(test): 5,000个实例。

数据集创建

源数据

数据最初由Google DeepMind的研究人员Karl Moritz Hermann等人收集,并由IBM Watson和Université de Montréal的研究人员修改为摘要格式。

语言生产者

文本由CNN和Daily Mail的记者以及ChatGPT撰写。

许可证信息

数据集使用Apache-2.0许可证。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作