crodri/ccma_meteo_instruct

Name: crodri/ccma_meteo_instruct
Creator: crodri
Published: 2023-11-30 08:46:37
License: 暂无描述

Hugging Face2023-11-30 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/crodri/ccma_meteo_instruct

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集旨在通过命名实体识别（NER）理解气象查询，特别为AI助手设计。它由BSC LangTech单位开发，作为Projecte AINA的一部分，用于丰富加泰罗尼亚语言理解基准（CLUB）。数据集包含三个双列文件，分别用于训练和开发集，所有NERC标签分布均衡。该数据集的创建旨在促进加泰罗尼亚语言模型的发展，且不包含任何个人或敏感信息。

提供机构：

crodri

原始信息汇总

数据集卡片 for CEIL

数据集描述

数据集摘要

用于理解气象查询的NERC数据集，旨在为AI助手提供支持。该数据集由BSC LangTech Unit开发，作为Projecte AINA项目的一部分，以丰富Catalan Language Understanding Benchmark (CLUB)。

支持的任务和排行榜

命名实体识别（Named Entities Recognition），语言模型（Language Model）

语言

数据集使用加泰罗尼亚语（ca-CA）。

数据集结构

数据实例

包含三个两列文件，每个文件对应一个数据集划分。

Com O serà O a O l O mati interval el O temps O a O O location Grove location el O dijous day ? O

数据字段

每个文件包含两列，第一列是单词形式或标点符号，第二列是对应的IOB标签。

数据划分

训练集和开发集按照85/15的比例划分，所有NERC标签均平衡。

数据集创建

策划理由

创建此语料库旨在为加泰罗尼亚语语言模型的发展做出贡献。

源数据

合成数据

初始数据收集和规范化

使用spacy进行单词分词，将偏移注释转换为CONLL文件。

注释

注释过程

将NER标签适应为每行一个词的多列格式。

个人和敏感信息

数据集中不包含个人或敏感信息。

使用数据集的注意事项

数据集的社会影响

希望此语料库能促进加泰罗尼亚语这一低资源语言的语言模型发展。

讨论偏见

[N/A]

其他已知限制

[N/A]

附加信息

数据集策展人

此工作由Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya资助，作为Projecte AINA项目的一部分。

许可信息

此工作根据<a rel="license" href="https://creativecommons.org/licenses/by/4.0/">Attribution 4.0 International License</a>授权。

5,000+

优质数据集

54 个

任务类型

进入经典数据集