cjvt/janes_tag
收藏Hugging Face2023-06-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cjvt/janes_tag
下载链接
链接失效反馈官方服务:
资源简介:
Janes-Tag是一个手动注释的斯洛文尼亚计算机媒介通信(CMC)语料库,主要由推文组成,也包括博客、论坛和新闻评论。每个实例都包含单词、词元、MSD标签和IOB2编码的命名实体标签。数据集的语言是代码混合/非标准斯洛文尼亚语。
Janes-Tag是一个手动注释的斯洛文尼亚计算机媒介通信(CMC)语料库,主要由推文组成,也包括博客、论坛和新闻评论。每个实例都包含单词、词元、MSD标签和IOB2编码的命名实体标签。数据集的语言是代码混合/非标准斯洛文尼亚语。
提供机构:
cjvt
原始信息汇总
数据集概述
数据集名称: Janes-Tag
数据集描述: Janes-Tag是一个手动标注的斯洛文尼亚计算机中介交流(CMC)语料库,主要包含推文,以及博客、论坛和新闻评论。
语言: 代码混合/非标准斯洛文尼亚语
数据集结构
数据实例
每个数据实例包含以下字段:
id: 示例的唯一标识符,类型为字符串。words: 示例中的单词,类型为字符串序列。lemmas: 示例中的词干,类型为字符串序列。msds: 示例中的MSD标签,类型为字符串序列。nes: IOB2编码的命名实体标签,类型为字符串序列。
数据集分割
- 训练集: 包含2957个示例,总大小为2653609字节。
数据集详细信息
- 许可证: CC BY-SA 4.0
- 任务类别: 令牌分类
- 标签: 代码混合、非标准、命名实体识别(NER)
- 大小类别: 1K<n<10K
数据集创建者
- 创建者: Jakob Lenardič 等人
- 详细信息: 请参见此处
许可证信息
- 许可证: CC BY-SA 4.0
引用信息
@misc{janes_tag, title = {{CMC} training corpus Janes-Tag 3.0}, author = {Lenardi{v c}, Jakob and {v C}ibej, Jaka and Arhar Holdt, {v S}pela and Erjavec, Toma{v z} and Fi{v s}er, Darja and Ljube{v s}i{c}, Nikola and Zupan, Katja and Dobrovoljc, Kaja}, url = {http://hdl.handle.net/11356/1732}, note = {Slovenian language resource repository {CLARIN}.{SI}}, copyright = {Creative Commons - Attribution-{ShareAlike} 4.0 International ({CC} {BY}-{SA} 4.0)}, year = {2022} }



