turkish-nlp-suite/turkish-wikiNER
收藏Hugging Face2026-04-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/turkish-nlp-suite/turkish-wikiNER
下载链接
链接失效反馈官方服务:
资源简介:
Turkish-WikiNER数据集是一个从土耳其语维基百科句子中提取的命名实体识别(NER)数据集。该数据集包含20,000个句子,这些句子是从Kuzgunlar NER数据集中采样并重新标注的。数据集由Co-one公司进行标注,并用于新的spaCy土耳其语包中。数据集包含18种标签,数据分为训练集、验证集和测试集,分别为18000、1000和1000个实例。
Turkish-WikiNER数据集是一个从土耳其语维基百科句子中提取的命名实体识别(NER)数据集。该数据集包含20,000个句子,这些句子是从Kuzgunlar NER数据集中采样并重新标注的。数据集由Co-one公司进行标注,并用于新的spaCy土耳其语包中。数据集包含18种标签,数据分为训练集、验证集和测试集,分别为18000、1000和1000个实例。
提供机构:
turkish-nlp-suite
原始信息汇总
数据集概述
- 名称: Turkish-WikiNER
- 语言: 土耳其语
- 许可证: CC-BY-SA-4.0
- 多语言性: 单语
- 大小: 10K<n<100K
- 任务类别: 令牌分类
- 任务ID: 命名实体识别
- 美观名称: Turkish-WikiNER
数据集详情
- 领域: 维基百科
- 标签数量: 18
- 数据来源: 从Kuzgunlar NER数据集抽样并重新标注的20,000个句子
- 标注机构: Co-one
数据集实例
- 示例结构: json { "tokens": ["词1", "词2", ...], "tags": ["标签1", "标签2", ...] }
标签列表
- CARDINAL
- DATE
- EVENT
- FAC
- GPE
- LANGUAGE
- LAW
- LOC
- MONEY
- NORP
- ORDINAL
- ORG
- PERCENT
- PERSON
- PRODUCT
- QUANTITY
- TIME
- TITLE
- WORK_OF_ART
数据分割
| 名称 | 训练 | 验证 | 测试 |
|---|---|---|---|
| Turkish-WikiNER | 18000 | 1000 | 1000 |
引用信息
-
支持: Google Developer Experts Program
-
引用文献: A Diverse Set of Freely Available Linguistic Resources for Turkish
-
引用格式:
@inproceedings{altinok-2023-diverse, title = "A Diverse Set of Freely Available Linguistic Resources for {T}urkish", author = "Altinok, Duygu", booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", month = jul, year = "2023", address = "Toronto, Canada", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.acl-long.768", pages = "13739--13750", abstract = "..." }



