projecte-aina/ceil

Name: projecte-aina/ceil
Creator: projecte-aina
Published: 2024-05-28 13:49:47
License: 暂无描述

Hugging Face2024-05-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/projecte-aina/ceil

下载链接

链接失效反馈

官方服务：

资源简介：

CEIL（加泰罗尼亚实体识别与链接）数据集是一个用于加泰罗尼亚语复杂命名实体识别（NER）的数据集，由AINA项目在巴塞罗那超级计算中心（BSC）创建，旨在用于机器学习和语言模型评估。数据集包含9种主要类型和52种子类型的命名实体，涵盖了各种短文本，共有近59K个文档。数据集的结构包括三个两列文件，分别对应训练集、开发集和测试集，每行包含单词或标点符号及其对应的IOB标签。数据集的创建目的是为了促进加泰罗尼亚语语言模型的发展，数据来源于各种在线资源，如推文、新闻、论坛帖子、维基百科文章等。注释过程由M47实验室负责，数据集不包含个人或敏感信息。

提供机构：

projecte-aina

原始信息汇总

数据集概述

数据集名称

名称: Catalan Entity Identification and Linking (CEIL)

数据集描述

摘要: CEIL是一个用于复杂命名实体识别（NER）的数据集，由AINA项目在BSC创建，主要用于机器学习和语言模型评估。该数据集包含9种主要类型和52种子类型，覆盖各类短文本，共有近59,000份文档。

语言

语言: 加泰罗尼亚语 (ca-ES)

数据集结构

数据实例: 包含三个两列文件，分别对应不同的分割。
数据字段: 每文件两列，第一列为词形或标点符号，第二列为相应的IOB标签。
数据分割: 80/20的训练和开发集，测试集包含所有可能类型的文档。

数据集创建

采集和规范化: 数据来源于多种在线资源，如推文、新闻稿、论坛帖子、维基百科文章等。
标注过程: 标注工作由M47实验室通过公开招标过程完成。

使用考虑

社会影响: 旨在促进加泰罗尼亚语语言模型的发展。

许可证信息

许可证: CC-by

数据集联系信息

联系人: langtech@bsc.es

5,000+

优质数据集

54 个

任务类型

进入经典数据集