somosnlp/coser_identificacion_provincias
收藏Hugging Face2024-04-08 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/somosnlp/coser_identificacion_provincias
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为coser_provincias,基于西班牙农村地区的口语和声音语料库(COSER),旨在提高西班牙不同语言变体的可见性,并开发能够理解和处理非标准西班牙语数据的模型。数据集包含三个字段:prompt、input和output,分别表示任务提示、输入文本和输出结果。数据集的创建过程包括数据预处理、省份识别、提示生成等步骤。
该数据集名为coser_provincias,基于西班牙农村地区的口语和声音语料库(COSER),旨在提高西班牙不同语言变体的可见性,并开发能够理解和处理非标准西班牙语数据的模型。数据集包含三个字段:prompt、input和output,分别表示任务提示、输入文本和输出结果。数据集的创建过程包括数据预处理、省份识别、提示生成等步骤。
提供机构:
somosnlp
原始信息汇总
数据集概述
名称: coser_provincias
语言: 西班牙语
任务类别: 文本分类
数据集大小:
- 训练集: 1150个样本,占用1636280字节
- 下载大小: 219507字节
数据集结构:
- 特征:
- prompt: 字符串类型,描述任务的构造
- input: 字符串类型,包含来自Huggingface corpus的访谈摘录
- output: 字符串类型,提供任务的信息,即访谈者所属的西班牙省份
数据集来源:
- 原始数据来自Corpus Oral y Sonoro del Español Rural (COSER),包含1772次半指导性访谈,数据收集自1990年至2022年,主要来自西班牙的农村地区。
数据处理:
- 数据预处理包括去除原始语料库中的语言标记和语音交叉标签,保留仅由说话者在其回合中所说的内容。
- 使用Python函数处理数据,提取访谈片段并关联相应的省份信息。
- 通过LLM Ollama生成输入和输出提示,选择最符合任务的提示。
数据集创建:
- 数据集由Clara Adsuar, Álvaro Bueno, Diego de Benito, Alberto Hernández y Manuel Otero共同创建和分享。
许可证: 公开
数据集详细结构
输入提示变体:
- "A continuación vas a recibir una entrevista en la que pueden participar varios entrevistadores (E), indicados como E1, E2, ..., y varios informadores (I), indicados como I1, I2, sucesivamente. Basándote en los rasgos lingüísticos mostrados por los informadores, determina la provincia española a la que pertenecen."
- "Dime la provincia del siguiente texto basándose en sus características lingüísticas. Texto: "
- "Dime la provincia del siguiente texto: "
- "Con la información de la siguiente entrevista, dame el lugar al que pertenecen los hablantes: "
- "Dime de qué lugar es el siguiente texto: "
输出提示:
- "La provincia a la que pertenecen los informadores es {provincia}."
数据集创建过程
数据收集与处理:
- 数据收集涉及从COSER corpus中选择和处理数据,以创建专门用于识别省份的数据集。
- 预处理步骤包括去除语言标记和语音交叉标签,仅保留说话者的回合内容。
- 使用Python函数从CSV文件中加载数据,提取访谈片段,并关联省份信息。
- 通过LLM Ollama生成输入和输出提示,选择最符合任务的提示,并将所有数据存储在CSV文件中。



