strombergnlp/bornholmsk_parallel
收藏数据集描述
数据集概述
该数据集包含Bornholmsk和Danish的平行文本。
支持的任务和排行榜
语言
Bornholmsk,一种在Bornholm岛上使用的丹麦语变体,以及丹麦语。bcp47: da-bornholm 和 da-DK
数据集结构
数据实例
数据字段
id: 句子ID,int
da-bornholm: Bornholmsk文本,string
da: 丹麦语翻译,string
数据分割
- 训练集: 5785个句子对
- 验证集: 500个句子对
- 测试集: 500个句子对
数据集创建
策划理由
为了尽可能多地收集Bornholmsk的平行文本。
源数据
初始数据收集和规范化
来自Kuhre的Sansager的翻译、口语资源的选择以及Bornholmsk/Danish词典的原型。
源语言生产者
Bornholmsk的母语者,他们用母语创作作品,或将其翻译成丹麦语。大部分数据是Bornholmsk说话者在整个岛上自愿贡献时间的结果,以捕捉这种濒危语言。
注释
注释过程
无注释
注释者
Bornholmsk的母语者,主要是60岁以上的人。
个人和敏感信息
未知,但鉴于源材料,存在风险较低。
使用数据集的考虑因素
数据集的社会影响
该数据集的目的是使人们能够学习和使用Bornholmsk。
偏见的讨论
[需要更多信息]
其他已知限制
[需要更多信息]
附加信息
数据集策展人
这个Bornholmsk的收集由Leon Derczynski和Alex Speed Kjeldsen策展。
许可信息
Creative Commons Attribution 4.0
引用信息
@inproceedings{derczynski-kjeldsen-2019-bornholmsk, title = "Bornholmsk Natural Language Processing: Resources and Tools", author = "Derczynski, Leon and Kjeldsen, Alex Speed", booktitle = "Proceedings of the 22nd Nordic Conference on Computational Linguistics", month = sep # "{--}" # oct, year = "2019", address = "Turku, Finland", publisher = {Link{"o}ping University Electronic Press}, url = "https://aclanthology.org/W19-6138", pages = "338--344", }



