five

cjvt/janes_preklop

收藏
Hugging Face2023-06-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cjvt/janes_preklop
下载链接
链接失效反馈
官方服务:
资源简介:
Janes-Preklop是一个斯洛文尼亚语推文语料库,手动标注了代码转换现象,即在一个句子或话语中使用两种或更多语言的单词。数据集的每个单词都标注了其语言,包括斯洛文尼亚语/不可分类的(default)、英语(en)、德语(de)、塞尔维亚-克罗地亚语(hbs)、西班牙语(sp)、拉丁语(la)、阿拉伯语(ar)、法语(fr)、意大利语(it)和葡萄牙语(pt)。数据集的结构包括唯一标识符(id)、句子中的单词(words)和每个单词的语言(language)。

Janes-Preklop是一个斯洛文尼亚语推文语料库,手动标注了代码转换现象,即在一个句子或话语中使用两种或更多语言的单词。数据集的每个单词都标注了其语言,包括斯洛文尼亚语/不可分类的(default)、英语(en)、德语(de)、塞尔维亚-克罗地亚语(hbs)、西班牙语(sp)、拉丁语(la)、阿拉伯语(ar)、法语(fr)、意大利语(it)和葡萄牙语(pt)。数据集的结构包括唯一标识符(id)、句子中的单词(words)和每个单词的语言(language)。
提供机构:
cjvt
原始信息汇总

数据集概述

数据集名称: Janes-Preklop

数据集描述: Janes-Preklop是一个手动标注的斯洛文尼亚语推文语料库,专门用于研究代码切换现象,即在一句话或一个表达中使用两种或更多语言的单词。

数据集结构

数据特征:

  • id: 字符串类型,示例的唯一标识符。
  • words: 字符串序列,句子中的单词。
  • language: 字符串序列,每个单词的语言标注。

数据分割:

  • train: 包含1104个示例,总字节数为410822。

数据集大小:

  • 下载大小: 623816字节
  • 数据集大小: 412672字节

任务类别:

  • 令牌分类

语言:

  • 斯洛文尼亚语(代码切换)

标签:

  • 推文
  • 代码混合
  • 代码切换

大小类别:

  • 1K<n<10K

许可证信息

许可证: CC BY-SA 4.0

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作