somosnlp-hackathon-2022/ITAMA-DataSet
收藏Hugging Face2022-04-04 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/somosnlp-hackathon-2022/ITAMA-DataSet
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了从2017年3月到2022年1月期间,从Reddit的西班牙语社区提取的帖子标题。数据集还包括手动标记的AMA(Ask Me Anything)和非AMA帖子,以及通过标签传播算法自动标记的AMA帖子。此外,数据集还包含了根据职业分类的问答对,这些问答对是从AMA帖子中提取的,并且只保留了包含问题符号和作者回答的对话。
该数据集包含了从2017年3月到2022年1月期间,从Reddit的西班牙语社区提取的帖子标题。数据集还包括手动标记的AMA(Ask Me Anything)和非AMA帖子,以及通过标签传播算法自动标记的AMA帖子。此外,数据集还包含了根据职业分类的问答对,这些问答对是从AMA帖子中提取的,并且只保留了包含问题符号和作者回答的对话。
提供机构:
somosnlp-hackathon-2022
原始信息汇总
数据集概述
数据集内容
- 社区帖子标题: 数据集包含了2017年3月至2022年1月期间,Reddit上西班牙语社区的部分帖子标题。
- 社区及帖子数量:
- AskRedditespanol: 28072
- BOLIVIA: 4935
- PERU: 20735
- argentina: 214986
- chile: 69077
- español: 39376
- mexico: 136984
- preguntaleareddit: 37300
- uruguay: 55693
- vzla: 42909
数据处理
- 标签分类: 手动标记了757个帖子,区分AMA(Ask Me Anything)和非AMA。其中,AMA标记290个,非AMA标记458个。
- 自动标记: 使用label spreading算法对剩余的AMA帖子进行自动标记,共标记了3519个帖子。
- 职业识别: 使用特定列表识别帖子创建者的职业,并通过同义词字典对相似职业进行归类。
- 问答对收集: 从AMA帖子中提取包含特定职业的问答对,保留了超过200对问答的职业相关数据。
文件信息
etiqueta_ama.csv: 包含手动标记的AMA和非AMA帖子信息。autoetiquetado_ama.csv: 包含自动标记的AMA帖子信息。qa_corpus_profesion.csv: 包含经过筛选的问答对数据,涉及的职业至少有200对问答。



