FrancophonIA/Deltacorpus_1.1
收藏Hugging Face2025-03-30 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/FrancophonIA/Deltacorpus_1.1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自W2C语料库的107种语言的文本,每种语言的前1,000,000个标记,由Yu等人(2016年,LREC,Portorož,斯洛文尼亚)描述的去词汇化标注器进行标注。版本1.1的变化包括使用通用依存关系标签集代替旧的Google通用POS标签集,使用在通用依存关系1.2上训练的SVM分类器代替在HamleDT 2.0上训练的分类器,以及针对不同语言组使用不同的分类器进行标注。通用POS标签由通用依存关系项目定义。
This dataset contains texts in 107 languages from the W2C corpus, with the first 1,000,000 tokens per language tagged using the delexicalized tagger. Version 1.1 updates the tagset and classifier, and provides more detailed tag definitions.
提供机构:
FrancophonIA



