five

cjvt/janes_tag

收藏
Hugging Face2023-06-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cjvt/janes_tag
下载链接
链接失效反馈
官方服务:
资源简介:
Janes-Tag是一个手动注释的斯洛文尼亚计算机媒介通信(CMC)语料库,主要由推文组成,也包括博客、论坛和新闻评论。每个实例都包含单词、词元、MSD标签和IOB2编码的命名实体标签。数据集的语言是代码混合/非标准斯洛文尼亚语。

Janes-Tag是一个手动注释的斯洛文尼亚计算机媒介通信(CMC)语料库,主要由推文组成,也包括博客、论坛和新闻评论。每个实例都包含单词、词元、MSD标签和IOB2编码的命名实体标签。数据集的语言是代码混合/非标准斯洛文尼亚语。
提供机构:
cjvt
原始信息汇总

数据集概述

数据集名称: Janes-Tag

数据集描述: Janes-Tag是一个手动标注的斯洛文尼亚计算机中介交流(CMC)语料库,主要包含推文,以及博客、论坛和新闻评论。

语言: 代码混合/非标准斯洛文尼亚语

数据集结构

数据实例

每个数据实例包含以下字段:

  • id: 示例的唯一标识符,类型为字符串。
  • words: 示例中的单词,类型为字符串序列。
  • lemmas: 示例中的词干,类型为字符串序列。
  • msds: 示例中的MSD标签,类型为字符串序列。
  • nes: IOB2编码的命名实体标签,类型为字符串序列。

数据集分割

  • 训练集: 包含2957个示例,总大小为2653609字节。

数据集详细信息

  • 许可证: CC BY-SA 4.0
  • 任务类别: 令牌分类
  • 标签: 代码混合、非标准、命名实体识别(NER)
  • 大小类别: 1K<n<10K

数据集创建者

  • 创建者: Jakob Lenardič 等人
  • 详细信息: 请参见此处

许可证信息

  • 许可证: CC BY-SA 4.0

引用信息

@misc{janes_tag, title = {{CMC} training corpus Janes-Tag 3.0}, author = {Lenardi{v c}, Jakob and {v C}ibej, Jaka and Arhar Holdt, {v S}pela and Erjavec, Toma{v z} and Fi{v s}er, Darja and Ljube{v s}i{c}, Nikola and Zupan, Katja and Dobrovoljc, Kaja}, url = {http://hdl.handle.net/11356/1732}, note = {Slovenian language resource repository {CLARIN}.{SI}}, copyright = {Creative Commons - Attribution-{ShareAlike} 4.0 International ({CC} {BY}-{SA} 4.0)}, year = {2022} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作