isarth/chatgpt-news-articles

Name: isarth/chatgpt-news-articles
Creator: isarth
Published: 2023-04-13 14:08:02
License: 暂无描述

Hugging Face2023-04-13 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/isarth/chatgpt-news-articles

下载链接

链接失效反馈

官方服务：

资源简介：

ChatGPT CNN/DailyMail数据集是原始CNN/DailyMail英语新闻文章数据集的一个小样本，包含25,000篇独特的新闻文章。每篇由CNN和Daily Mail记者撰写的文章都有一篇由ChatGPT根据人类标注者提供的高亮部分撰写的文章。该数据集可用于研究人类和ChatGPT在新闻写作中的语言比较。数据集的结构包括文章、高亮部分、ID和ChatGPT生成的文章。数据集分为训练集和测试集，分别包含20,000和5,000个实例。

提供机构：

isarth

原始信息汇总

数据集概述

数据集名称

"chatgpt-news-articles"

数据集描述

该数据集包含25,000篇独特的英文新闻文章，每篇文章均由CNN和Daily Mail的记者撰写，并由ChatGPT根据人类注释者提供的高亮内容重写。此数据集支持研究人类与ChatGPT新闻写作之间的语言比较。

语言

数据集语言为英语（en-US和en-GB）。

数据集结构

数据实例

每个实例包含以下字段：

id: 字符串，文章来源URL的SHA1哈希值。
article: 字符串，由记者撰写的新闻文章。
highlights: 字符串，文章作者撰写的高亮内容。
chatgpt: 字符串，由ChatGPT撰写的新闻文章。

数据字段统计

article: 平均字数358。
chatgpt: 平均字数352。
highlights: 平均字数42。

数据分割

训练集（train）: 20,000个实例。
测试集（test）: 5,000个实例。

数据集创建

源数据

数据最初由Google DeepMind的研究人员Karl Moritz Hermann等人收集，并由IBM Watson和Université de Montréal的研究人员修改为摘要格式。

语言生产者

文本由CNN和Daily Mail的记者以及ChatGPT撰写。

许可证信息

数据集使用Apache-2.0许可证。

5,000+

优质数据集

54 个

任务类型

进入经典数据集