cjvt/janes_preklop
收藏Hugging Face2023-06-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cjvt/janes_preklop
下载链接
链接失效反馈官方服务:
资源简介:
Janes-Preklop是一个斯洛文尼亚语推文语料库,手动标注了代码转换现象,即在一个句子或话语中使用两种或更多语言的单词。数据集的每个单词都标注了其语言,包括斯洛文尼亚语/不可分类的(default)、英语(en)、德语(de)、塞尔维亚-克罗地亚语(hbs)、西班牙语(sp)、拉丁语(la)、阿拉伯语(ar)、法语(fr)、意大利语(it)和葡萄牙语(pt)。数据集的结构包括唯一标识符(id)、句子中的单词(words)和每个单词的语言(language)。
Janes-Preklop是一个斯洛文尼亚语推文语料库,手动标注了代码转换现象,即在一个句子或话语中使用两种或更多语言的单词。数据集的每个单词都标注了其语言,包括斯洛文尼亚语/不可分类的(default)、英语(en)、德语(de)、塞尔维亚-克罗地亚语(hbs)、西班牙语(sp)、拉丁语(la)、阿拉伯语(ar)、法语(fr)、意大利语(it)和葡萄牙语(pt)。数据集的结构包括唯一标识符(id)、句子中的单词(words)和每个单词的语言(language)。
提供机构:
cjvt
原始信息汇总
数据集概述
数据集名称: Janes-Preklop
数据集描述: Janes-Preklop是一个手动标注的斯洛文尼亚语推文语料库,专门用于研究代码切换现象,即在一句话或一个表达中使用两种或更多语言的单词。
数据集结构
数据特征:
id: 字符串类型,示例的唯一标识符。words: 字符串序列,句子中的单词。language: 字符串序列,每个单词的语言标注。
数据分割:
train: 包含1104个示例,总字节数为410822。
数据集大小:
- 下载大小: 623816字节
- 数据集大小: 412672字节
任务类别:
- 令牌分类
语言:
- 斯洛文尼亚语(代码切换)
标签:
- 推文
- 代码混合
- 代码切换
大小类别:
- 1K<n<10K
许可证信息
许可证: CC BY-SA 4.0



