ChangeIsKey/open-riksdag
收藏Hugging Face2023-09-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ChangeIsKey/open-riksdag
下载链接
链接失效反馈官方服务:
资源简介:
这是一个名为Open Riksdag-103的数据集,源自瑞典国家立法机构Riksdag的文本数据。该数据集专为历时性建模设计,特别关注随着时间变化的,包括通过TF-IDF选出的103个目标词的句子。数据集被组织成按月划分的子集,每条数据包含日期、文档类型、文档ID、目标词和文本等元数据。该数据集遵循CC BY 4.0许可。
这是一个名为Open Riksdag-103的数据集,源自瑞典国家立法机构Riksdag的文本数据。该数据集专为历时性建模设计,特别关注随着时间变化的,包括通过TF-IDF选出的103个目标词的句子。数据集被组织成按月划分的子集,每条数据包含日期、文档类型、文档ID、目标词和文本等元数据。该数据集遵循CC BY 4.0许可。
提供机构:
ChangeIsKey
原始信息汇总
数据集概述
基本信息
- 语言: 瑞典语
- 许可证: CC BY 4.0
- 数据规模: 1M<n<10M
- 名称: Open Riksdag-103
- 标签:
- 历时性
- 语义变化
数据来源
- 原始数据来自瑞典国会(Riksdag),根据公共管理文件再利用法(2010:566)提供,无特定许可证。
- 本数据集是基于哥特堡大学Språkbanken Text(SBX)编译的版本,包含XML文件,按源文档类型(动议、问题、议事录等)分割,并包含额外的语言学注释。该版本在CC BY 4.0许可证下提供。
数据集特点
- 目标词: 包含至少一个由TF-IDF选择的103个目标词的句子。
- 时间分割: 按月分割的子集(所有文档类型合并)。
- 数据格式: 每行一个句子(少于4个词的句子被丢弃),包含日期、文档类型、文档ID、目标词和文本。
使用方法
- 数据集构建器需要一个
years参数,该参数必须是1979到2019年之间的可迭代年份。 - 示例代码: python from datasets import load_dataset data = load_dataset(ChangeIsKey/open-riksdag, sentences, years=range(1999,2000), sources=[prop, bet])
许可证
- CC BY 4.0,需注明出处。



