five

GPT-JF/Corpus_1B

收藏
Hugging Face2023-12-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/GPT-JF/Corpus_1B
下载链接
链接失效反馈
官方服务:
资源简介:
CORPUS 1B数据集包含了美国前总统乔治·W·布什在2001年9月11日至2005年1月20日期间与恐怖主义相关的演讲和言论。该数据集是通过在美国总统项目网站上使用关键词‘terror*’进行搜索并进一步筛选得到的,筛选条件包括与乔治·W·布什相关的文档,并且仅包含‘口头演讲或言论’类别的文档。数据集共包含1,275条记录,涵盖了从国情咨文演讲到与外国政要讨论后的言论等多种类型的演讲。

CORPUS 1B数据集包含了美国前总统乔治·W·布什在2001年9月11日至2005年1月20日期间与恐怖主义相关的演讲和言论。该数据集是通过在美国总统项目网站上使用关键词‘terror*’进行搜索并进一步筛选得到的,筛选条件包括与乔治·W·布什相关的文档,并且仅包含‘口头演讲或言论’类别的文档。数据集共包含1,275条记录,涵盖了从国情咨文演讲到与外国政要讨论后的言论等多种类型的演讲。
提供机构:
GPT-JF
原始信息汇总

数据集概述

数据集名称

CORPUS 1B

数据集描述

该数据集包含美国总统乔治·W·布什在2001年9月11日至2005年1月20日期间与恐怖主义相关的演讲和讲话。

时间范围

  • 开始日期:2001年9月11日
  • 结束日期:2005年1月20日

搜索参数

  • 关键词搜索:使用关键词“terror*”进行搜索,包括所有变体如terrorism、terrorist等。
  • 进一步筛选:仅包含与乔治·W·布什相关的文档,并且仅限于标记为“spoken addresses or remarks”的文档。

数据组成

  • 总记录数:1,275条
  • 内容类型:包括国情咨文演讲、对美国各地社区的讲话、对媒体的讲话、与外国政要讨论后的讲话等。

字数统计

  • 清洗前字数:2,227,662
  • 清洗后字数:2,236,541
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作