Kyle1668/AG-Tweets
收藏Hugging Face2023-11-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Kyle1668/AG-Tweets
下载链接
链接失效反馈官方服务:
资源简介:
AG News Tweets数据集是一个四分类任务,旨在分类新闻文章的主题,包括世界事件、体育、商业和科技。该数据集通过使用GPT-3.5 Turbo进行风格转换生成,生成过程中考虑了幽默、愤怒或讽刺等情感元素,并且没有强制遵循Twitter的字符限制。数据集包含7,600个测试样本,每个类别样本数量均衡。
The AG News Tweets dataset is a four-class classification task that aims to categorize the topics of news articles, covering world events, sports, business and technology. It was generated via style conversion using GPT-3.5 Turbo, with emotional elements such as humor, anger or satire taken into consideration during the generation process, and there was no mandatory adherence to Twitter's character limits. The dataset contains 7,600 test samples, with an equal number of samples for each category.
提供机构:
Kyle1668
原始信息汇总
数据集概述
数据集名称
- AG News Tweets
数据集目的
- 用于四类新闻主题分类任务,包括世界事件(World)、体育和运动(Sports)、商业和经济(Business)、科学发展(Sci/Tech)。
- 旨在研究写作风格变化对新闻主题分类的影响。
数据集构成
- 包含7,600个样本,四个类别平衡分布。
数据集创建
- 使用GPT-3.5 Turbo(6/7/23版本)进行风格转移。
- 初始处理包括使用保守的“V1”提示和贪婪解码对所有样本进行处理。
- 对512个不满意的结果进行了二次处理,更新了提示和超参数,并指导模型增加幽默、愤怒或讽刺的情感。
数据集特点
- 未遵循Twitter的字符限制,数据集内容更广泛地受社交媒体帖子启发。
- 未手动审查每个序列以确认原始标签的保留。
- GPT-3.5 Turbo可能产生虚构事实,如错误的时间标签。



