five

crodri/ccma_meteo_instruct

收藏
Hugging Face2023-11-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/crodri/ccma_meteo_instruct
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集旨在通过命名实体识别(NER)理解气象查询,特别为AI助手设计。它由BSC LangTech单位开发,作为Projecte AINA的一部分,用于丰富加泰罗尼亚语言理解基准(CLUB)。数据集包含三个双列文件,分别用于训练和开发集,所有NERC标签分布均衡。该数据集的创建旨在促进加泰罗尼亚语言模型的发展,且不包含任何个人或敏感信息。

该数据集旨在通过命名实体识别(NER)理解气象查询,特别为AI助手设计。它由BSC LangTech单位开发,作为Projecte AINA的一部分,用于丰富加泰罗尼亚语言理解基准(CLUB)。数据集包含三个双列文件,分别用于训练和开发集,所有NERC标签分布均衡。该数据集的创建旨在促进加泰罗尼亚语言模型的发展,且不包含任何个人或敏感信息。
提供机构:
crodri
原始信息汇总

数据集卡片 for CEIL

数据集描述

数据集摘要

用于理解气象查询的NERC数据集,旨在为AI助手提供支持。该数据集由BSC LangTech Unit开发,作为Projecte AINA项目的一部分,以丰富Catalan Language Understanding Benchmark (CLUB)

支持的任务和排行榜

命名实体识别(Named Entities Recognition),语言模型(Language Model)

语言

数据集使用加泰罗尼亚语(ca-CA)。

数据集结构

数据实例

包含三个两列文件,每个文件对应一个数据集划分。

Com O serà O a O l O mati interval el O temps O a O O location Grove location el O dijous day ? O

数据字段

每个文件包含两列,第一列是单词形式或标点符号,第二列是对应的IOB标签。

数据划分

训练集和开发集按照85/15的比例划分,所有NERC标签均平衡。

数据集创建

策划理由

创建此语料库旨在为加泰罗尼亚语语言模型的发展做出贡献。

源数据

合成数据

初始数据收集和规范化

使用spacy进行单词分词,将偏移注释转换为CONLL文件。

注释

注释过程

将NER标签适应为每行一个词的多列格式。

个人和敏感信息

数据集中不包含个人或敏感信息。

使用数据集的注意事项

数据集的社会影响

希望此语料库能促进加泰罗尼亚语这一低资源语言的语言模型发展。

讨论偏见

[N/A]

其他已知限制

[N/A]

附加信息

数据集策展人

此工作由Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya资助,作为Projecte AINA项目的一部分。

许可信息

此工作根据<a rel="license" href="https://creativecommons.org/licenses/by/4.0/">Attribution 4.0 International License</a>授权。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作