five

Eugleo/us-congressional-speeches

收藏
Hugging Face2024-07-22 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/Eugleo/us-congressional-speeches
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个特征,如语音ID、文本内容、会议厅、日期、文件内编号、发言者、名字、姓氏、州、性别、行起始、行结束、文件名、字符数和单词数。这些特征详细描述了每个语音片段的信息,包括文本内容、发言者信息、时间和地点等。数据集分为一个训练集,包含17,395,884个样本,总大小为13,708,205,227字节。

The dataset includes multiple features such as speech ID, text content, chamber, date, number within file, speaker, first name, last name, state, gender, line start, line end, file name, character count, and word count. These features provide detailed information about each speech segment, including text content, speaker information, time, and location. The dataset is divided into a training set containing 17,395,884 samples with a total size of 13,708,205,227 bytes.
提供机构:
Eugleo
原始信息汇总

数据集概述

数据集信息

特征

  • speech_id: 整数类型
  • text: 大字符串类型
  • chamber: 大字符串类型
  • date: 时间戳类型
  • number_within_file: 整数类型
  • speaker: 大字符串类型
  • first_name: 大字符串类型
  • last_name: 大字符串类型
  • state: 大字符串类型
  • gender: 大字符串类型
  • line_start: 整数类型
  • line_end: 整数类型
  • file: 大字符串类型
  • char_count: 整数类型
  • word_count: 整数类型

数据分割

  • train:
    • 字节数: 13708205227
    • 样本数: 17395884

数据集大小

  • 下载大小: 6405645256 字节
  • 数据集大小: 13708205227 字节

配置

  • config_name: default
    • data_files:
      • split: train
      • path: data/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作