five

flax-sentence-embeddings/stackexchange_title_best_voted_answer_jsonl

收藏
Hugging Face2022-07-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/flax-sentence-embeddings/stackexchange_title_best_voted_answer_jsonl
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从Stack Exchange网络中自动提取的问题和答案(Q&A)对。Stack Exchange是一个包含50个在线平台的问答社区网络,其中包括知名的Stack Overflow和其他技术站点。数据集是一个平行语料库,每个问题都映射到其最高评分的答案。数据集根据不同的社区进行划分,涵盖了从3D打印、经济学、树莓派到Emacs等多个领域。数据集主要用于句子嵌入训练,特别是对比学习模型的训练。
提供机构:
flax-sentence-embeddings
原始信息汇总

数据集概述

数据集名称

  • 名称: stackexchange

数据集属性

  • 语言: 主要为英语 (en)
  • 许可证: cc-by-nc-sa-4.0
  • 多语言性: 多语言
  • 任务类别: 问答 (question-answering)
  • 任务ID: 封闭领域问答 (closed-domain-qa)
  • 来源数据集: 原始数据
  • 大小类别: 未知

数据集内容

  • 数据实例: 每个数据样本包含问题标题和主体以及最受欢迎的答案。
  • 数据字段:
    • title_body: 问题的标题和主体的组合。
    • upvoted_answer: 最受欢迎的答案的主体。

数据集结构

  • 数据分割: 根据不同的社区频道提供多个分割,每个分割包含特定数量的问答对。

数据集创建

  • 采集理由: 主要用于句子嵌入训练,利用对比学习设置来关联每个句子与其对应的配对。
  • 源数据: 数据来自Stack Exchange的转储。
  • 初始数据收集和规范化: 从数学社区收集数据,过滤掉标题或主体长度小于20个字符或主体长度超过4096个字符的问题。
  • 源语言生产者: 问题和答案由Stack Exchange社区开发者编写。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作