five

FrancophonIA/Deltacorpus_1.1

收藏
Hugging Face2025-03-30 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/FrancophonIA/Deltacorpus_1.1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自W2C语料库的107种语言的文本,每种语言的前1,000,000个标记,由Yu等人(2016年,LREC,Portorož,斯洛文尼亚)描述的去词汇化标注器进行标注。版本1.1的变化包括使用通用依存关系标签集代替旧的Google通用POS标签集,使用在通用依存关系1.2上训练的SVM分类器代替在HamleDT 2.0上训练的分类器,以及针对不同语言组使用不同的分类器进行标注。通用POS标签由通用依存关系项目定义。

This dataset contains texts in 107 languages from the W2C corpus, with the first 1,000,000 tokens per language tagged using the delexicalized tagger. Version 1.1 updates the tagset and classifier, and provides more detailed tag definitions.
提供机构:
FrancophonIA
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作