five

biglam/hansard_speech

收藏
Hugging Face2022-07-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/biglam/hansard_speech
下载链接
链接失效反馈
官方服务:
资源简介:
Hansard Speeches数据集包含了1979年5月至2020年7月期间英国下议院的所有演讲记录。该数据集适用于文本分类和语言建模等任务,旨在研究语言和社会观点随时间的变化。数据集是单语言的,仅包含英语(英国),并且没有进行注释。数据集的大小在1M到10M之间,适用于深度学习任务。
提供机构:
biglam
原始信息汇总

数据集概述

数据集名称

  • 名称: Hansard Speeches

数据集属性

  • 语言: 英语(en)
  • 多语言性: 单语种
  • 许可证: CC-BY-4.0
  • 大小: 1M<n<10M
  • 来源: 原始数据
  • 标签: 演讲、政治、议会、英国

支持的任务

  • 文本分类
  • 文本生成

数据集结构

  • 数据实例: 包含演讲的详细信息,如演讲者、政党、选区、日期等。
  • 数据字段: 包括演讲ID、文本、显示名称、政党、选区等。
  • 数据分割: 训练集大小为2694375。

数据集创建

使用考虑

  • 社会影响: 用于理解语言使用和社会观点随时间的变化,可能包含现代社会不可接受的言论和观点。

附加信息

  • 数据集创建者: Evan Odell
  • 许可证信息: 创意共享署名4.0国际许可证
  • 引用信息: 见README文件中的引用格式。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作