joelniklaus/covid19_emergency_event

Name: joelniklaus/covid19_emergency_event
Creator: joelniklaus
Published: 2022-09-22 13:44:15
License: 暂无描述

Hugging Face2022-09-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/joelniklaus/covid19_emergency_event

下载链接

链接失效反馈

官方服务：

资源简介：

EXCEPTIUS Corpus是一个多语言数据集，包含来自8个欧洲国家（比利时、法国、匈牙利、意大利、荷兰、挪威、波兰、英国）的立法文件，这些文件被手动注释了针对COVID-19的特别措施。数据集支持多标签文本分类任务，包含7种语言（荷兰语、英语、法语、匈牙利语、意大利语、挪威博克马尔语、波兰语）的句子级注释。数据集的创建目的是研究多语言预训练语言模型在分析和比较COVID-19特别措施法律文本中的潜力。数据集的结构包括训练、验证和测试三个部分，每个部分包含来自每个国家的句子。数据集的注释由政治科学专家进行，注释过程涉及多个步骤和讨论。

提供机构：

joelniklaus

原始信息汇总

数据集概述

数据集名称

名称: EXCEPTIUS Corpus
别名: 无

数据集基本信息

语言: 荷兰语, 英语, 法语, 匈牙利语, 意大利语, 挪威语, 波兰语
许可证: CC0-1.0
多语言性: 多语言
大小: 1K<n<10K
来源: 原始数据
任务类别: 文本分类
任务ID: 多标签分类

数据集描述

摘要: 该数据集包含来自8个欧洲国家的立法文件，涉及7种语言，手动标注了针对COVID-19的特殊措施。标注在句子级别进行。
支持任务: 多标签文本分类
结构: 数据以jsonl格式存储，包含训练、验证和测试三个分割。每个文件包含语言、国家和文本字段，以及8个表示特定COVID-19措施的标签。

数据集创建

数据收集: 数据由政治学专家和法律专家合作收集，从官方政府网站获取。
标注过程: 由三名政治学专家在项目科学委员会的监督下进行，标注在句子级别，支持多标签标注。

数据集使用考虑

数据结构: 数据集的结构可能与原始数据集有所不同，用户应参考转换脚本以了解详细转换步骤。

附加信息

数据集维护者: Joel Niklaus和Veton Matoshi
许可证信息: 遵循Creative Commons Zero v1.0 Universal
引用信息: 参考Tziafas等人的论文进行引用。

5,000+

优质数据集

54 个

任务类型

进入经典数据集