five

joshuapsa/gpt-generated-news-sentences

收藏
Hugging Face2023-11-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/joshuapsa/gpt-generated-news-sentences
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是专门为代码测试目的创建的。数据集通过向chatGPT提供特定主题的提示生成,例如生成关于战争和冲突事件的新闻句子。数据集包含多个特征,如class_index、text和多个以_开头的类别标签,这些标签都是二分类的。数据集分为train、valid和test三个部分,分别包含640、80和80个样本。
提供机构:
joshuapsa
原始信息汇总

数据集概述

数据集特征

  • class_index: 类别标签,数据类型为 class_label,标签名称为 0 和 1。
  • text: 文本内容,数据类型为 string
  • _air: 类别标签,数据类型为 class_label,标签名称为 0 和 1。
  • _cybersecurity: 类别标签,数据类型为 class_label,标签名称为 0 和 1。
  • _domestic_unrest_violence: 类别标签,数据类型为 class_label,标签名称为 0 和 1。
  • _extreme_weather: 类别标签,数据类型为 class_label,标签名称为 0 和 1。
  • _forced_labor: 类别标签,数据类型为 class_label,标签名称为 0 和 1。
  • _general_biz_trend: 类别标签,数据类型为 class_label,标签名称为 0 和 1。
  • _later_report: 类别标签,数据类型为 class_label,标签名称为 0 和 1。
  • _lawsuit_legal_insurance: 类别标签,数据类型为 class_label,标签名称为 0 和 1。
  • _leisure_other_news: 类别标签,数据类型为 class_label,标签名称为 0 和 1。
  • _maritime: 类别标签,数据类型为 class_label,标签名称为 0 和 1。
  • _pandemics_large_scale_diseases: 类别标签,数据类型为 class_label,标签名称为 0 和 1。
  • _railway: 类别标签,数据类型为 class_label,标签名称为 0 和 1。
  • _strike: 类别标签,数据类型为 class_label,标签名称为 0 和 1。
  • _trade_war_embargos_bans: 类别标签,数据类型为 class_label,标签名称为 0 和 1。
  • _war_conflict: 类别标签,数据类型为 class_label,标签名称为 0 和 1。
  • _warehouse_fire: 类别标签,数据类型为 class_label,标签名称为 0 和 1。
  • labels: 标签序列,数据类型为 int64

数据集分割

  • train: 训练集,包含 640 个样本,总字节数为 266620。
  • valid: 验证集,包含 80 个样本,总字节数为 33348。
  • test: 测试集,包含 80 个样本,总字节数为 33277。

数据集大小

  • 下载大小: 100323 字节。
  • 数据集大小: 333245 字节。

许可

  • license: MIT 许可证。

任务类别

  • task_categories: 文本分类。

语言

  • language: 英语。

数据集规模

  • size_categories: 1K<n<10K。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作