five

ChangeIsKey/open-riksdag

收藏
Hugging Face2023-09-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ChangeIsKey/open-riksdag
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个名为Open Riksdag-103的数据集,源自瑞典国家立法机构Riksdag的文本数据。该数据集专为历时性建模设计,特别关注随着时间变化的,包括通过TF-IDF选出的103个目标词的句子。数据集被组织成按月划分的子集,每条数据包含日期、文档类型、文档ID、目标词和文本等元数据。该数据集遵循CC BY 4.0许可。

这是一个名为Open Riksdag-103的数据集,源自瑞典国家立法机构Riksdag的文本数据。该数据集专为历时性建模设计,特别关注随着时间变化的,包括通过TF-IDF选出的103个目标词的句子。数据集被组织成按月划分的子集,每条数据包含日期、文档类型、文档ID、目标词和文本等元数据。该数据集遵循CC BY 4.0许可。
提供机构:
ChangeIsKey
原始信息汇总

数据集概述

基本信息

  • 语言: 瑞典语
  • 许可证: CC BY 4.0
  • 数据规模: 1M<n<10M
  • 名称: Open Riksdag-103
  • 标签:
    • 历时性
    • 语义变化

数据来源

  • 原始数据来自瑞典国会(Riksdag),根据公共管理文件再利用法(2010:566)提供,无特定许可证。
  • 本数据集是基于哥特堡大学Språkbanken Text(SBX)编译的版本,包含XML文件,按源文档类型(动议、问题、议事录等)分割,并包含额外的语言学注释。该版本在CC BY 4.0许可证下提供。

数据集特点

  • 目标词: 包含至少一个由TF-IDF选择的103个目标词的句子。
  • 时间分割: 按月分割的子集(所有文档类型合并)。
  • 数据格式: 每行一个句子(少于4个词的句子被丢弃),包含日期、文档类型、文档ID、目标词和文本。

使用方法

  • 数据集构建器需要一个years参数,该参数必须是1979到2019年之间的可迭代年份。
  • 示例代码: python from datasets import load_dataset data = load_dataset(ChangeIsKey/open-riksdag, sentences, years=range(1999,2000), sources=[prop, bet])

许可证

  • CC BY 4.0,需注明出处。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作