somosnlp/coser_identificacion_provincias

Name: somosnlp/coser_identificacion_provincias
Creator: somosnlp
Published: 2024-04-08 13:07:44
License: 暂无描述

Hugging Face2024-04-08 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/somosnlp/coser_identificacion_provincias

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为coser_provincias，基于西班牙农村地区的口语和声音语料库（COSER），旨在提高西班牙不同语言变体的可见性，并开发能够理解和处理非标准西班牙语数据的模型。数据集包含三个字段：prompt、input和output，分别表示任务提示、输入文本和输出结果。数据集的创建过程包括数据预处理、省份识别、提示生成等步骤。

提供机构：

somosnlp

原始信息汇总

数据集概述

名称: coser_provincias

语言: 西班牙语

任务类别: 文本分类

数据集大小:

训练集: 1150个样本，占用1636280字节
下载大小: 219507字节

数据集结构:

特征:
- prompt: 字符串类型，描述任务的构造
- input: 字符串类型，包含来自Huggingface corpus的访谈摘录
- output: 字符串类型，提供任务的信息，即访谈者所属的西班牙省份

数据集来源:

原始数据来自Corpus Oral y Sonoro del Español Rural (COSER)，包含1772次半指导性访谈，数据收集自1990年至2022年，主要来自西班牙的农村地区。

数据处理:

数据预处理包括去除原始语料库中的语言标记和语音交叉标签，保留仅由说话者在其回合中所说的内容。
使用Python函数处理数据，提取访谈片段并关联相应的省份信息。
通过LLM Ollama生成输入和输出提示，选择最符合任务的提示。

数据集创建:

数据集由Clara Adsuar, Álvaro Bueno, Diego de Benito, Alberto Hernández y Manuel Otero共同创建和分享。

许可证: 公开

数据集详细结构

输入提示变体:

"A continuación vas a recibir una entrevista en la que pueden participar varios entrevistadores (E), indicados como E1, E2, ..., y varios informadores (I), indicados como I1, I2, sucesivamente. Basándote en los rasgos lingüísticos mostrados por los informadores, determina la provincia española a la que pertenecen."
"Dime la provincia del siguiente texto basándose en sus características lingüísticas. Texto: "
"Dime la provincia del siguiente texto: "
"Con la información de la siguiente entrevista, dame el lugar al que pertenecen los hablantes: "
"Dime de qué lugar es el siguiente texto: "

输出提示:

"La provincia a la que pertenecen los informadores es {provincia}."

数据集创建过程

数据收集与处理:

数据收集涉及从COSER corpus中选择和处理数据，以创建专门用于识别省份的数据集。
预处理步骤包括去除语言标记和语音交叉标签，仅保留说话者的回合内容。
使用Python函数从CSV文件中加载数据，提取访谈片段，并关联省份信息。
通过LLM Ollama生成输入和输出提示，选择最符合任务的提示，并将所有数据存储在CSV文件中。

5,000+

优质数据集

54 个

任务类型

进入经典数据集