crodri/ccma_meteo_instruct
收藏数据集卡片 for CEIL
数据集描述
数据集摘要
用于理解气象查询的NERC数据集,旨在为AI助手提供支持。该数据集由BSC LangTech Unit开发,作为Projecte AINA项目的一部分,以丰富Catalan Language Understanding Benchmark (CLUB)。
支持的任务和排行榜
命名实体识别(Named Entities Recognition),语言模型(Language Model)
语言
数据集使用加泰罗尼亚语(ca-CA)。
数据集结构
数据实例
包含三个两列文件,每个文件对应一个数据集划分。
Com O serà O a O l O mati interval el O temps O a O O location Grove location el O dijous day ? O
数据字段
每个文件包含两列,第一列是单词形式或标点符号,第二列是对应的IOB标签。
数据划分
训练集和开发集按照85/15的比例划分,所有NERC标签均平衡。
数据集创建
策划理由
创建此语料库旨在为加泰罗尼亚语语言模型的发展做出贡献。
源数据
合成数据
初始数据收集和规范化
使用spacy进行单词分词,将偏移注释转换为CONLL文件。
注释
注释过程
将NER标签适应为每行一个词的多列格式。
个人和敏感信息
数据集中不包含个人或敏感信息。
使用数据集的注意事项
数据集的社会影响
希望此语料库能促进加泰罗尼亚语这一低资源语言的语言模型发展。
讨论偏见
[N/A]
其他已知限制
[N/A]
附加信息
数据集策展人
此工作由Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya资助,作为Projecte AINA项目的一部分。
许可信息
此工作根据<a rel="license" href="https://creativecommons.org/licenses/by/4.0/">Attribution 4.0 International License</a>授权。



