five

projecte-aina/ceil

收藏
Hugging Face2024-05-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/ceil
下载链接
链接失效反馈
官方服务:
资源简介:
CEIL(加泰罗尼亚实体识别与链接)数据集是一个用于加泰罗尼亚语复杂命名实体识别(NER)的数据集,由AINA项目在巴塞罗那超级计算中心(BSC)创建,旨在用于机器学习和语言模型评估。数据集包含9种主要类型和52种子类型的命名实体,涵盖了各种短文本,共有近59K个文档。数据集的结构包括三个两列文件,分别对应训练集、开发集和测试集,每行包含单词或标点符号及其对应的IOB标签。数据集的创建目的是为了促进加泰罗尼亚语语言模型的发展,数据来源于各种在线资源,如推文、新闻、论坛帖子、维基百科文章等。注释过程由M47实验室负责,数据集不包含个人或敏感信息。

CEIL(加泰罗尼亚实体识别与链接)数据集是一个用于加泰罗尼亚语复杂命名实体识别(NER)的数据集,由AINA项目在巴塞罗那超级计算中心(BSC)创建,旨在用于机器学习和语言模型评估。数据集包含9种主要类型和52种子类型的命名实体,涵盖了各种短文本,共有近59K个文档。数据集的结构包括三个两列文件,分别对应训练集、开发集和测试集,每行包含单词或标点符号及其对应的IOB标签。数据集的创建目的是为了促进加泰罗尼亚语语言模型的发展,数据来源于各种在线资源,如推文、新闻、论坛帖子、维基百科文章等。注释过程由M47实验室负责,数据集不包含个人或敏感信息。
提供机构:
projecte-aina
原始信息汇总

数据集概述

数据集名称

  • 名称: Catalan Entity Identification and Linking (CEIL)

数据集描述

  • 摘要: CEIL是一个用于复杂命名实体识别(NER)的数据集,由AINA项目在BSC创建,主要用于机器学习和语言模型评估。该数据集包含9种主要类型和52种子类型,覆盖各类短文本,共有近59,000份文档。

语言

  • 语言: 加泰罗尼亚语 (ca-ES)

数据集结构

  • 数据实例: 包含三个两列文件,分别对应不同的分割。
  • 数据字段: 每文件两列,第一列为词形或标点符号,第二列为相应的IOB标签。
  • 数据分割: 80/20的训练和开发集,测试集包含所有可能类型的文档。

数据集创建

  • 采集和规范化: 数据来源于多种在线资源,如推文、新闻稿、论坛帖子、维基百科文章等。
  • 标注过程: 标注工作由M47实验室通过公开招标过程完成。

使用考虑

  • 社会影响: 旨在促进加泰罗尼亚语语言模型的发展。

许可证信息

数据集联系信息

  • 联系人: langtech@bsc.es
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作