somosnlp/coser_resumenes

Name: somosnlp/coser_resumenes
Creator: somosnlp
Published: 2024-04-08 19:06:53
License: 暂无描述

Hugging Face2024-04-08 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/somosnlp/coser_resumenes

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为coser_resumenes，基于西班牙农村口语和声音语料库（COSER）开发，旨在提高西班牙不同语言变体的可见性，并开发能够理解和处理非标准西班牙语数据的模型。数据集包含230个访谈的摘要，分为三个字段：prompt、input和output。prompt字段描述了任务，input字段包含访谈的摘录，output字段是生成的摘要。数据集的创建过程包括数据预处理、省份识别、prompt生成和最终数据编译。

提供机构：

somosnlp

原始信息汇总

数据集概述

基本信息

名称: coser_resumenes
语言: 西班牙语 (es)
任务类别: 文本分类
数据集大小: 2002074字节
下载大小: 1075266字节
训练集大小: 230个样本，总字节数2002074

数据结构

特征:
- prompt: 字符串类型，任务描述
- input: 字符串类型，输入文本
- output: 字符串类型，输出文本（摘要）
数据分割:
- 训练集: 230个样本

数据来源

原始数据: 来自COSER - Corpus Oral y Sonoro del Español Rural，包含1772次半结构化访谈（1910小时录音），主要来自西班牙农村地区，受访者平均年龄74岁。
数据处理: 移除了原始数据中的语言标记和并发语音标记，保留了方言形式。

数据创建

数据收集与处理: 通过Python脚本处理CSV格式的数据，提取访谈片段和主题对话。
提示创建: 使用Ollama模型生成输出摘要，基于固定的输入提示模板。

许可证

许可证: 公开

数据集创建者

创建者: Clara Adsuar, Álvaro Bueno, Diego de Benito, Alberto Hernández, Manuel Otero
共享者: 同上

5,000+

优质数据集

54 个

任务类型

进入经典数据集