isarth/chatgpt-news-articles
收藏Hugging Face2023-04-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/isarth/chatgpt-news-articles
下载链接
链接失效反馈官方服务:
资源简介:
ChatGPT CNN/DailyMail数据集是原始CNN/DailyMail英语新闻文章数据集的一个小样本,包含25,000篇独特的新闻文章。每篇由CNN和Daily Mail记者撰写的文章都有一篇由ChatGPT根据人类标注者提供的高亮部分撰写的文章。该数据集可用于研究人类和ChatGPT在新闻写作中的语言比较。数据集的结构包括文章、高亮部分、ID和ChatGPT生成的文章。数据集分为训练集和测试集,分别包含20,000和5,000个实例。
ChatGPT CNN/DailyMail数据集是原始CNN/DailyMail英语新闻文章数据集的一个小样本,包含25,000篇独特的新闻文章。每篇由CNN和Daily Mail记者撰写的文章都有一篇由ChatGPT根据人类标注者提供的高亮部分撰写的文章。该数据集可用于研究人类和ChatGPT在新闻写作中的语言比较。数据集的结构包括文章、高亮部分、ID和ChatGPT生成的文章。数据集分为训练集和测试集,分别包含20,000和5,000个实例。
提供机构:
isarth
原始信息汇总
数据集概述
数据集名称
"chatgpt-news-articles"
数据集描述
该数据集包含25,000篇独特的英文新闻文章,每篇文章均由CNN和Daily Mail的记者撰写,并由ChatGPT根据人类注释者提供的高亮内容重写。此数据集支持研究人类与ChatGPT新闻写作之间的语言比较。
语言
数据集语言为英语(en-US和en-GB)。
数据集结构
数据实例
每个实例包含以下字段:
id: 字符串,文章来源URL的SHA1哈希值。article: 字符串,由记者撰写的新闻文章。highlights: 字符串,文章作者撰写的高亮内容。chatgpt: 字符串,由ChatGPT撰写的新闻文章。
数据字段统计
article: 平均字数358。chatgpt: 平均字数352。highlights: 平均字数42。
数据分割
- 训练集(train): 20,000个实例。
- 测试集(test): 5,000个实例。
数据集创建
源数据
数据最初由Google DeepMind的研究人员Karl Moritz Hermann等人收集,并由IBM Watson和Université de Montréal的研究人员修改为摘要格式。
语言生产者
文本由CNN和Daily Mail的记者以及ChatGPT撰写。
许可证信息
数据集使用Apache-2.0许可证。



