joshuapsa/gpt-generated-news-sentences
收藏Hugging Face2023-11-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/joshuapsa/gpt-generated-news-sentences
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是专门为代码测试目的创建的。数据集通过向chatGPT提供特定主题的提示生成,例如生成关于战争和冲突事件的新闻句子。数据集包含多个特征,如class_index、text和多个以_开头的类别标签,这些标签都是二分类的。数据集分为train、valid和test三个部分,分别包含640、80和80个样本。
提供机构:
joshuapsa
原始信息汇总
数据集概述
数据集特征
- class_index: 类别标签,数据类型为
class_label,标签名称为 0 和 1。 - text: 文本内容,数据类型为
string。 - _air: 类别标签,数据类型为
class_label,标签名称为 0 和 1。 - _cybersecurity: 类别标签,数据类型为
class_label,标签名称为 0 和 1。 - _domestic_unrest_violence: 类别标签,数据类型为
class_label,标签名称为 0 和 1。 - _extreme_weather: 类别标签,数据类型为
class_label,标签名称为 0 和 1。 - _forced_labor: 类别标签,数据类型为
class_label,标签名称为 0 和 1。 - _general_biz_trend: 类别标签,数据类型为
class_label,标签名称为 0 和 1。 - _later_report: 类别标签,数据类型为
class_label,标签名称为 0 和 1。 - _lawsuit_legal_insurance: 类别标签,数据类型为
class_label,标签名称为 0 和 1。 - _leisure_other_news: 类别标签,数据类型为
class_label,标签名称为 0 和 1。 - _maritime: 类别标签,数据类型为
class_label,标签名称为 0 和 1。 - _pandemics_large_scale_diseases: 类别标签,数据类型为
class_label,标签名称为 0 和 1。 - _railway: 类别标签,数据类型为
class_label,标签名称为 0 和 1。 - _strike: 类别标签,数据类型为
class_label,标签名称为 0 和 1。 - _trade_war_embargos_bans: 类别标签,数据类型为
class_label,标签名称为 0 和 1。 - _war_conflict: 类别标签,数据类型为
class_label,标签名称为 0 和 1。 - _warehouse_fire: 类别标签,数据类型为
class_label,标签名称为 0 和 1。 - labels: 标签序列,数据类型为
int64。
数据集分割
- train: 训练集,包含 640 个样本,总字节数为 266620。
- valid: 验证集,包含 80 个样本,总字节数为 33348。
- test: 测试集,包含 80 个样本,总字节数为 33277。
数据集大小
- 下载大小: 100323 字节。
- 数据集大小: 333245 字节。
许可
- license: MIT 许可证。
任务类别
- task_categories: 文本分类。
语言
- language: 英语。
数据集规模
- size_categories: 1K<n<10K。



