klintan/swedish_ner_corpus
收藏数据集卡片 - Swedish NER Corpus
数据集描述
数据集摘要
Swedish NER Corpus 数据集源自 Språkbanken 的 Webbnyheter 2012,经过半手工标注并适应 CoreNLP 瑞典 NER。半手工标注过程包括从瑞典地名录中引导,然后由两名独立的母语为瑞典语的标注者手动校正/审核。未计算标注者一致性。
支持的任务和排行榜
[更多信息需要]
语言
瑞典语
数据集结构
数据实例
以下是一个数据集实例的示例:
json { "id": "3", "ner_tags": [4, 4, 0, 0, 0, 0, 0, 0, 3, 3, 0], "tokens": ["Margaretha", "Fahlgren", ",", "professor", "i", "litteraturvetenskap", ",", "vice-rektor", "Uppsala", "universitet", "."] }
数据字段
id: 句子的IDtoken: 当前词元ner_tag: 词元的NER标签
完整字段:
json { "id": { "feature_type": "Value", "dtype": "string" }, "tokens": { "feature_type": "Sequence", "feature": { "feature_type": "Value", "dtype": "string" } }, "ner_tags": { "feature_type": "Sequence", "dtype": "int32", "feature": { "feature_type": "ClassLabel", "dtype": "int32", "class_names": [ "0": "0", "1": "LOC", "2": "MISC", "3": "ORG", "4": "PER" ] } } }
数据分割
[更多信息需要]
数据集创建
策划理由
[更多信息需要]
源数据
[更多信息需要]
初始数据收集和规范化
[更多信息需要]
源语言生产者是谁?
[更多信息需要]
标注
[更多信息需要]
标注过程
[更多信息需要]
标注者是谁?
[更多信息需要]
个人和敏感信息
[更多信息需要]
使用数据的注意事项
数据集的社会影响
[更多信息需要]
偏见的讨论
[更多信息需要]
其他已知限制
[更多信息需要]
附加信息
数据集策展人
原始数据集由 Språkbanken 提供,包含来自瑞典报纸网站的新闻。
许可信息
https://github.com/klintan/swedish-ner-corpus/blob/master/LICENSE
引用信息
[更多信息需要]
贡献
感谢 @abhishekkrthakur 添加此数据集。



