somosnlp/coser_resumenes
收藏Hugging Face2024-04-08 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/somosnlp/coser_resumenes
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为coser_resumenes,基于西班牙农村口语和声音语料库(COSER)开发,旨在提高西班牙不同语言变体的可见性,并开发能够理解和处理非标准西班牙语数据的模型。数据集包含230个访谈的摘要,分为三个字段:prompt、input和output。prompt字段描述了任务,input字段包含访谈的摘录,output字段是生成的摘要。数据集的创建过程包括数据预处理、省份识别、prompt生成和最终数据编译。
该数据集名为coser_resumenes,基于西班牙农村口语和声音语料库(COSER)开发,旨在提高西班牙不同语言变体的可见性,并开发能够理解和处理非标准西班牙语数据的模型。数据集包含230个访谈的摘要,分为三个字段:prompt、input和output。prompt字段描述了任务,input字段包含访谈的摘录,output字段是生成的摘要。数据集的创建过程包括数据预处理、省份识别、prompt生成和最终数据编译。
提供机构:
somosnlp
原始信息汇总
数据集概述
基本信息
- 名称: coser_resumenes
- 语言: 西班牙语 (es)
- 任务类别: 文本分类
- 数据集大小: 2002074字节
- 下载大小: 1075266字节
- 训练集大小: 230个样本,总字节数2002074
数据结构
- 特征:
- prompt: 字符串类型,任务描述
- input: 字符串类型,输入文本
- output: 字符串类型,输出文本(摘要)
- 数据分割:
- 训练集: 230个样本
数据来源
- 原始数据: 来自COSER - Corpus Oral y Sonoro del Español Rural,包含1772次半结构化访谈(1910小时录音),主要来自西班牙农村地区,受访者平均年龄74岁。
- 数据处理: 移除了原始数据中的语言标记和并发语音标记,保留了方言形式。
数据创建
- 数据收集与处理: 通过Python脚本处理CSV格式的数据,提取访谈片段和主题对话。
- 提示创建: 使用Ollama模型生成输出摘要,基于固定的输入提示模板。
许可证
- 许可证: 公开
数据集创建者
- 创建者: Clara Adsuar, Álvaro Bueno, Diego de Benito, Alberto Hernández, Manuel Otero
- 共享者: 同上



