biglam/hansard_speech
收藏Hugging Face2022-07-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/biglam/hansard_speech
下载链接
链接失效反馈官方服务:
资源简介:
Hansard Speeches数据集包含了1979年5月至2020年7月期间英国下议院的所有演讲记录。该数据集适用于文本分类和语言建模等任务,旨在研究语言和社会观点随时间的变化。数据集是单语言的,仅包含英语(英国),并且没有进行注释。数据集的大小在1M到10M之间,适用于深度学习任务。
提供机构:
biglam
原始信息汇总
数据集概述
数据集名称
- 名称: Hansard Speeches
数据集属性
- 语言: 英语(en)
- 多语言性: 单语种
- 许可证: CC-BY-4.0
- 大小: 1M<n<10M
- 来源: 原始数据
- 标签: 演讲、政治、议会、英国
支持的任务
- 文本分类
- 文本生成
数据集结构
- 数据实例: 包含演讲的详细信息,如演讲者、政党、选区、日期等。
- 数据字段: 包括演讲ID、文本、显示名称、政党、选区等。
- 数据分割: 训练集大小为2694375。
数据集创建
- 来源数据: 数据来源于data.parliament.uk。
- 注释: 无注释。
使用考虑
- 社会影响: 用于理解语言使用和社会观点随时间的变化,可能包含现代社会不可接受的言论和观点。
附加信息
- 数据集创建者: Evan Odell
- 许可证信息: 创意共享署名4.0国际许可证
- 引用信息: 见README文件中的引用格式。



