projecte-aina/ceil
收藏Hugging Face2024-05-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/ceil
下载链接
链接失效反馈官方服务:
资源简介:
CEIL(加泰罗尼亚实体识别与链接)数据集是一个用于加泰罗尼亚语复杂命名实体识别(NER)的数据集,由AINA项目在巴塞罗那超级计算中心(BSC)创建,旨在用于机器学习和语言模型评估。数据集包含9种主要类型和52种子类型的命名实体,涵盖了各种短文本,共有近59K个文档。数据集的结构包括三个两列文件,分别对应训练集、开发集和测试集,每行包含单词或标点符号及其对应的IOB标签。数据集的创建目的是为了促进加泰罗尼亚语语言模型的发展,数据来源于各种在线资源,如推文、新闻、论坛帖子、维基百科文章等。注释过程由M47实验室负责,数据集不包含个人或敏感信息。
CEIL(加泰罗尼亚实体识别与链接)数据集是一个用于加泰罗尼亚语复杂命名实体识别(NER)的数据集,由AINA项目在巴塞罗那超级计算中心(BSC)创建,旨在用于机器学习和语言模型评估。数据集包含9种主要类型和52种子类型的命名实体,涵盖了各种短文本,共有近59K个文档。数据集的结构包括三个两列文件,分别对应训练集、开发集和测试集,每行包含单词或标点符号及其对应的IOB标签。数据集的创建目的是为了促进加泰罗尼亚语语言模型的发展,数据来源于各种在线资源,如推文、新闻、论坛帖子、维基百科文章等。注释过程由M47实验室负责,数据集不包含个人或敏感信息。
提供机构:
projecte-aina
原始信息汇总
数据集概述
数据集名称
- 名称: Catalan Entity Identification and Linking (CEIL)
数据集描述
- 摘要: CEIL是一个用于复杂命名实体识别(NER)的数据集,由AINA项目在BSC创建,主要用于机器学习和语言模型评估。该数据集包含9种主要类型和52种子类型,覆盖各类短文本,共有近59,000份文档。
语言
- 语言: 加泰罗尼亚语 (
ca-ES)
数据集结构
- 数据实例: 包含三个两列文件,分别对应不同的分割。
- 数据字段: 每文件两列,第一列为词形或标点符号,第二列为相应的IOB标签。
- 数据分割: 80/20的训练和开发集,测试集包含所有可能类型的文档。
数据集创建
- 采集和规范化: 数据来源于多种在线资源,如推文、新闻稿、论坛帖子、维基百科文章等。
- 标注过程: 标注工作由M47实验室通过公开招标过程完成。
使用考虑
- 社会影响: 旨在促进加泰罗尼亚语语言模型的发展。
许可证信息
- 许可证: CC-by
数据集联系信息
- 联系人: langtech@bsc.es



