flax-sentence-embeddings/stackexchange_title_best_voted_answer_jsonl
收藏Hugging Face2022-07-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/flax-sentence-embeddings/stackexchange_title_best_voted_answer_jsonl
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从Stack Exchange网络中自动提取的问题和答案(Q&A)对。Stack Exchange是一个包含50个在线平台的问答社区网络,其中包括知名的Stack Overflow和其他技术站点。数据集是一个平行语料库,每个问题都映射到其最高评分的答案。数据集根据不同的社区进行划分,涵盖了从3D打印、经济学、树莓派到Emacs等多个领域。数据集主要用于句子嵌入训练,特别是对比学习模型的训练。
提供机构:
flax-sentence-embeddings
原始信息汇总
数据集概述
数据集名称
- 名称: stackexchange
数据集属性
- 语言: 主要为英语 (en)
- 许可证: cc-by-nc-sa-4.0
- 多语言性: 多语言
- 任务类别: 问答 (question-answering)
- 任务ID: 封闭领域问答 (closed-domain-qa)
- 来源数据集: 原始数据
- 大小类别: 未知
数据集内容
- 数据实例: 每个数据样本包含问题标题和主体以及最受欢迎的答案。
- 数据字段:
title_body: 问题的标题和主体的组合。upvoted_answer: 最受欢迎的答案的主体。
数据集结构
- 数据分割: 根据不同的社区频道提供多个分割,每个分割包含特定数量的问答对。
数据集创建
- 采集理由: 主要用于句子嵌入训练,利用对比学习设置来关联每个句子与其对应的配对。
- 源数据: 数据来自Stack Exchange的转储。
- 初始数据收集和规范化: 从数学社区收集数据,过滤掉标题或主体长度小于20个字符或主体长度超过4096个字符的问题。
- 源语言生产者: 问题和答案由Stack Exchange社区开发者编写。



