five

joelniklaus/covid19_emergency_event

收藏
Hugging Face2022-09-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/joelniklaus/covid19_emergency_event
下载链接
链接失效反馈
官方服务:
资源简介:
EXCEPTIUS Corpus是一个多语言数据集,包含来自8个欧洲国家(比利时、法国、匈牙利、意大利、荷兰、挪威、波兰、英国)的立法文件,这些文件被手动注释了针对COVID-19的特别措施。数据集支持多标签文本分类任务,包含7种语言(荷兰语、英语、法语、匈牙利语、意大利语、挪威博克马尔语、波兰语)的句子级注释。数据集的创建目的是研究多语言预训练语言模型在分析和比较COVID-19特别措施法律文本中的潜力。数据集的结构包括训练、验证和测试三个部分,每个部分包含来自每个国家的句子。数据集的注释由政治科学专家进行,注释过程涉及多个步骤和讨论。
提供机构:
joelniklaus
原始信息汇总

数据集概述

数据集名称

  • 名称: EXCEPTIUS Corpus
  • 别名: 无

数据集基本信息

  • 语言: 荷兰语, 英语, 法语, 匈牙利语, 意大利语, 挪威语, 波兰语
  • 许可证: CC0-1.0
  • 多语言性: 多语言
  • 大小: 1K<n<10K
  • 来源: 原始数据
  • 任务类别: 文本分类
  • 任务ID: 多标签分类

数据集描述

  • 摘要: 该数据集包含来自8个欧洲国家的立法文件,涉及7种语言,手动标注了针对COVID-19的特殊措施。标注在句子级别进行。
  • 支持任务: 多标签文本分类
  • 结构: 数据以jsonl格式存储,包含训练、验证和测试三个分割。每个文件包含语言、国家和文本字段,以及8个表示特定COVID-19措施的标签。

数据集创建

  • 数据收集: 数据由政治学专家和法律专家合作收集,从官方政府网站获取。
  • 标注过程: 由三名政治学专家在项目科学委员会的监督下进行,标注在句子级别,支持多标签标注。

数据集使用考虑

  • 数据结构: 数据集的结构可能与原始数据集有所不同,用户应参考转换脚本以了解详细转换步骤。

附加信息

  • 数据集维护者: Joel Niklaus和Veton Matoshi
  • 许可证信息: 遵循Creative Commons Zero v1.0 Universal
  • 引用信息: 参考Tziafas等人的论文进行引用。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作