classla/COPA-SR_lat
收藏COPA-SR_lat
数据集概述
COPA-SR数据集(塞尔维亚语中的合理替代选择)是根据XCOPA数据集翻译方法论将英语COPA数据集翻译并转写为拉丁字母的版本。
数据内容
数据集包含1,000个前提(例如:“我的身体在草地上投下了影子”),每个前提都有一个问题(“原因是什么?”或“结果是什么?”),以及两个选项(例如:“太阳正在升起”;“草被割了”),并有一个标签指示哪个选项在给定注释者或翻译者的情况下更合理(例如:“太阳正在升起”)。
数据格式
数据集遵循与克罗地亚COPA-HR数据集和马其顿COPA-MK数据集相同的格式。数据被分为训练(400个实例)、验证(100个实例)和测试(500个实例)的JSONL文件。
数据集分割
- 训练集:400个实例
- 验证集:100个实例
- 测试集:500个实例
翻译机构
数据集的翻译工作由ReLDI Centre Belgrade完成。
作者信息
- Ljubešić, Nikola
- Starović, Mirjana
- Kuzman, Taja
- Samardžić, Tanja
引用信息
@misc{11356/1708, title = {Choice of plausible alternatives dataset in Serbian {COPA}-{SR}}, author = {Ljube{v s}i{c}, Nikola and Starovi{c}, Mirjana and Kuzman, Taja and Samard{v z}i{c}, Tanja}, url = {http://hdl.handle.net/11356/1708}, note = {Slovenian language resource repository {CLARIN}.{SI}}, copyright = {Creative Commons - Attribution-{ShareAlike} 4.0 International ({CC} {BY}-{SA} 4.0)}, issn = {2820-4042}, year = {2022} }



