five

Eugleo/us-congressional-speeches-subset

收藏
Hugging Face2024-07-22 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/Eugleo/us-congressional-speeches-subset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含与演讲相关的多种信息,如演讲ID、文本内容、会议厅、日期、演讲者信息(包括姓名、性别、所属州)、以及文本的行起始和结束位置等。数据集主要用于存储和分析演讲数据。数据集包含一个训练分割,共有5038919个示例,文件大小约为3.97GB。

This dataset contains various information related to speeches, such as speech ID, text content, chamber, date, speaker information (including name, gender, state), and the start and end lines of the text. The dataset is primarily used for storing and analyzing speech data. It includes a training split with 5,038,919 examples and a file size of approximately 3.97GB.
提供机构:
Eugleo
原始信息汇总

数据集概述

数据集信息

特征

  • speech_id: 整数类型
  • text: 大字符串类型
  • chamber: 大字符串类型
  • date: 时间戳类型
  • number_within_file: 整数类型
  • speaker: 大字符串类型
  • first_name: 大字符串类型
  • last_name: 大字符串类型
  • state: 大字符串类型
  • gender: 大字符串类型
  • line_start: 整数类型
  • line_end: 整数类型
  • file: 大字符串类型
  • char_count: 整数类型
  • word_count: 整数类型

数据分割

  • train:
    • 字节数: 3970740192.0034423
    • 样本数: 5038919

数据集大小

  • 下载大小: 3078685556
  • 数据集大小: 3970740192.0034423

配置

  • config_name: default
    • data_files:
      • split: train
      • path: data/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作