five

somosnlp/coser_identificacion_provincias

收藏
Hugging Face2024-04-08 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/somosnlp/coser_identificacion_provincias
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为coser_provincias,基于西班牙农村地区的口语和声音语料库(COSER),旨在提高西班牙不同语言变体的可见性,并开发能够理解和处理非标准西班牙语数据的模型。数据集包含三个字段:prompt、input和output,分别表示任务提示、输入文本和输出结果。数据集的创建过程包括数据预处理、省份识别、提示生成等步骤。

该数据集名为coser_provincias,基于西班牙农村地区的口语和声音语料库(COSER),旨在提高西班牙不同语言变体的可见性,并开发能够理解和处理非标准西班牙语数据的模型。数据集包含三个字段:prompt、input和output,分别表示任务提示、输入文本和输出结果。数据集的创建过程包括数据预处理、省份识别、提示生成等步骤。
提供机构:
somosnlp
原始信息汇总

数据集概述

名称: coser_provincias

语言: 西班牙语

任务类别: 文本分类

数据集大小:

  • 训练集: 1150个样本,占用1636280字节
  • 下载大小: 219507字节

数据集结构:

  • 特征:
    • prompt: 字符串类型,描述任务的构造
    • input: 字符串类型,包含来自Huggingface corpus的访谈摘录
    • output: 字符串类型,提供任务的信息,即访谈者所属的西班牙省份

数据集来源:

  • 原始数据来自Corpus Oral y Sonoro del Español Rural (COSER),包含1772次半指导性访谈,数据收集自1990年至2022年,主要来自西班牙的农村地区。

数据处理:

  • 数据预处理包括去除原始语料库中的语言标记和语音交叉标签,保留仅由说话者在其回合中所说的内容。
  • 使用Python函数处理数据,提取访谈片段并关联相应的省份信息。
  • 通过LLM Ollama生成输入和输出提示,选择最符合任务的提示。

数据集创建:

  • 数据集由Clara Adsuar, Álvaro Bueno, Diego de Benito, Alberto Hernández y Manuel Otero共同创建和分享。

许可证: 公开

数据集详细结构

输入提示变体:

  1. "A continuación vas a recibir una entrevista en la que pueden participar varios entrevistadores (E), indicados como E1, E2, ..., y varios informadores (I), indicados como I1, I2, sucesivamente. Basándote en los rasgos lingüísticos mostrados por los informadores, determina la provincia española a la que pertenecen."
  2. "Dime la provincia del siguiente texto basándose en sus características lingüísticas. Texto: "
  3. "Dime la provincia del siguiente texto: "
  4. "Con la información de la siguiente entrevista, dame el lugar al que pertenecen los hablantes: "
  5. "Dime de qué lugar es el siguiente texto: "

输出提示:

  • "La provincia a la que pertenecen los informadores es {provincia}."

数据集创建过程

数据收集与处理:

  • 数据收集涉及从COSER corpus中选择和处理数据,以创建专门用于识别省份的数据集。
  • 预处理步骤包括去除语言标记和语音交叉标签,仅保留说话者的回合内容。
  • 使用Python函数从CSV文件中加载数据,提取访谈片段,并关联省份信息。
  • 通过LLM Ollama生成输入和输出提示,选择最符合任务的提示,并将所有数据存储在CSV文件中。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作