joelniklaus/covid19_emergency_event
收藏Hugging Face2022-09-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/joelniklaus/covid19_emergency_event
下载链接
链接失效反馈官方服务:
资源简介:
EXCEPTIUS Corpus是一个多语言数据集,包含来自8个欧洲国家(比利时、法国、匈牙利、意大利、荷兰、挪威、波兰、英国)的立法文件,这些文件被手动注释了针对COVID-19的特别措施。数据集支持多标签文本分类任务,包含7种语言(荷兰语、英语、法语、匈牙利语、意大利语、挪威博克马尔语、波兰语)的句子级注释。数据集的创建目的是研究多语言预训练语言模型在分析和比较COVID-19特别措施法律文本中的潜力。数据集的结构包括训练、验证和测试三个部分,每个部分包含来自每个国家的句子。数据集的注释由政治科学专家进行,注释过程涉及多个步骤和讨论。
提供机构:
joelniklaus
原始信息汇总
数据集概述
数据集名称
- 名称: EXCEPTIUS Corpus
- 别名: 无
数据集基本信息
- 语言: 荷兰语, 英语, 法语, 匈牙利语, 意大利语, 挪威语, 波兰语
- 许可证: CC0-1.0
- 多语言性: 多语言
- 大小: 1K<n<10K
- 来源: 原始数据
- 任务类别: 文本分类
- 任务ID: 多标签分类
数据集描述
- 摘要: 该数据集包含来自8个欧洲国家的立法文件,涉及7种语言,手动标注了针对COVID-19的特殊措施。标注在句子级别进行。
- 支持任务: 多标签文本分类
- 结构: 数据以jsonl格式存储,包含训练、验证和测试三个分割。每个文件包含语言、国家和文本字段,以及8个表示特定COVID-19措施的标签。
数据集创建
- 数据收集: 数据由政治学专家和法律专家合作收集,从官方政府网站获取。
- 标注过程: 由三名政治学专家在项目科学委员会的监督下进行,标注在句子级别,支持多标签标注。
数据集使用考虑
- 数据结构: 数据集的结构可能与原始数据集有所不同,用户应参考转换脚本以了解详细转换步骤。
附加信息
- 数据集维护者: Joel Niklaus和Veton Matoshi
- 许可证信息: 遵循Creative Commons Zero v1.0 Universal
- 引用信息: 参考Tziafas等人的论文进行引用。



