blame_folketinget_dk
收藏Hugging Face2026-03-20 更新2026-03-21 收录
下载链接:
https://huggingface.co/datasets/runetrust/blame_folketinget_dk
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为“Folketinget Denmark with Blame Labels”,包含丹麦政治辩论的文本数据,语言为丹麦语。数据集规模介于10万到100万之间,采用cc0-1.0许可协议,标签包括政治和辩论。数据集包含以下字段:文本(text)、标签(labels)、发言人(speaker)、日期(date)和政党(party)。数据分为训练集(450,000条)、测试集(424条)和验证集(50,000条)。数据集部分源自The ParlSpeech V2数据集(1997年10月7日至2018年12月20日),其余数据(2019年1月8日至2026年2月26日)来自Folketingets的sFTP服务器。 blame标签是通过机器翻译(使用opus-MT)并由Political DEBATE模型生成。训练集和验证集按90/10比例分割,测试集由两位作者手动标注,标注者间一致性为84.8%(Cohen's Kappa为0.675)。数据集适用于政治辩论分析和 blame检测任务。
创建时间:
2026-03-18



