five

somosnlp/coser_resumenes

收藏
Hugging Face2024-04-08 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/somosnlp/coser_resumenes
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为coser_resumenes,基于西班牙农村口语和声音语料库(COSER)开发,旨在提高西班牙不同语言变体的可见性,并开发能够理解和处理非标准西班牙语数据的模型。数据集包含230个访谈的摘要,分为三个字段:prompt、input和output。prompt字段描述了任务,input字段包含访谈的摘录,output字段是生成的摘要。数据集的创建过程包括数据预处理、省份识别、prompt生成和最终数据编译。

该数据集名为coser_resumenes,基于西班牙农村口语和声音语料库(COSER)开发,旨在提高西班牙不同语言变体的可见性,并开发能够理解和处理非标准西班牙语数据的模型。数据集包含230个访谈的摘要,分为三个字段:prompt、input和output。prompt字段描述了任务,input字段包含访谈的摘录,output字段是生成的摘要。数据集的创建过程包括数据预处理、省份识别、prompt生成和最终数据编译。
提供机构:
somosnlp
原始信息汇总

数据集概述

基本信息

  • 名称: coser_resumenes
  • 语言: 西班牙语 (es)
  • 任务类别: 文本分类
  • 数据集大小: 2002074字节
  • 下载大小: 1075266字节
  • 训练集大小: 230个样本,总字节数2002074

数据结构

  • 特征:
    • prompt: 字符串类型,任务描述
    • input: 字符串类型,输入文本
    • output: 字符串类型,输出文本(摘要)
  • 数据分割:
    • 训练集: 230个样本

数据来源

  • 原始数据: 来自COSER - Corpus Oral y Sonoro del Español Rural,包含1772次半结构化访谈(1910小时录音),主要来自西班牙农村地区,受访者平均年龄74岁。
  • 数据处理: 移除了原始数据中的语言标记和并发语音标记,保留了方言形式。

数据创建

  • 数据收集与处理: 通过Python脚本处理CSV格式的数据,提取访谈片段和主题对话。
  • 提示创建: 使用Ollama模型生成输出摘要,基于固定的输入提示模板。

许可证

  • 许可证: 公开

数据集创建者

  • 创建者: Clara Adsuar, Álvaro Bueno, Diego de Benito, Alberto Hernández, Manuel Otero
  • 共享者: 同上
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作