five

somosnlp-hackathon-2022/ITAMA-DataSet

收藏
Hugging Face2022-04-04 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/somosnlp-hackathon-2022/ITAMA-DataSet
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了从2017年3月到2022年1月期间,从Reddit的西班牙语社区提取的帖子标题。数据集还包括手动标记的AMA(Ask Me Anything)和非AMA帖子,以及通过标签传播算法自动标记的AMA帖子。此外,数据集还包含了根据职业分类的问答对,这些问答对是从AMA帖子中提取的,并且只保留了包含问题符号和作者回答的对话。

该数据集包含了从2017年3月到2022年1月期间,从Reddit的西班牙语社区提取的帖子标题。数据集还包括手动标记的AMA(Ask Me Anything)和非AMA帖子,以及通过标签传播算法自动标记的AMA帖子。此外,数据集还包含了根据职业分类的问答对,这些问答对是从AMA帖子中提取的,并且只保留了包含问题符号和作者回答的对话。
提供机构:
somosnlp-hackathon-2022
原始信息汇总

数据集概述

数据集内容

  • 社区帖子标题: 数据集包含了2017年3月至2022年1月期间,Reddit上西班牙语社区的部分帖子标题。
  • 社区及帖子数量:
    • AskRedditespanol: 28072
    • BOLIVIA: 4935
    • PERU: 20735
    • argentina: 214986
    • chile: 69077
    • español: 39376
    • mexico: 136984
    • preguntaleareddit: 37300
    • uruguay: 55693
    • vzla: 42909

数据处理

  • 标签分类: 手动标记了757个帖子,区分AMA(Ask Me Anything)和非AMA。其中,AMA标记290个,非AMA标记458个。
  • 自动标记: 使用label spreading算法对剩余的AMA帖子进行自动标记,共标记了3519个帖子。
  • 职业识别: 使用特定列表识别帖子创建者的职业,并通过同义词字典对相似职业进行归类。
  • 问答对收集: 从AMA帖子中提取包含特定职业的问答对,保留了超过200对问答的职业相关数据。

文件信息

  • etiqueta_ama.csv: 包含手动标记的AMA和非AMA帖子信息。
  • autoetiquetado_ama.csv: 包含自动标记的AMA帖子信息。
  • qa_corpus_profesion.csv: 包含经过筛选的问答对数据,涉及的职业至少有200对问答。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作