five

flax-sentence-embeddings/stackexchange_titlebody_best_and_down_voted_answer_jsonl

收藏
Hugging Face2022-07-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/flax-sentence-embeddings/stackexchange_titlebody_best_and_down_voted_answer_jsonl
下载链接
链接失效反馈
官方服务:
资源简介:
Stack Exchange数据集是从Stack Exchange网络中自动提取的问题和答案对。Stack Exchange网络包含50个在线平台,包括著名的Stack Overflow和其他技术站点,每月有1亿开发者访问。该数据集是一个平行语料库,每个问题都映射到最高评分的答案。数据集根据社区进行分割,涵盖了从3D打印、经济学、树莓派到Emacs等各种领域。数据集主要用于句子嵌入训练,包含多个社区的分割数据。
提供机构:
flax-sentence-embeddings
原始信息汇总

数据集概述

数据集名称

  • 名称: stackexchange

数据集属性

  • 语言: 主要为英语 (en)
  • 许可证: cc-by-nc-sa-4.0
  • 多语言性: 多语言
  • 大小类别: 未知
  • 源数据集: 原始数据
  • 任务类别: 问答
  • 任务ID: closed-domain-qa

数据集内容

  • 概述: 自动从Stack Exchange网络提取的问题和答案(Q&A)对。该数据集是一个平行语料库,每个问题映射到最高评分的答案。数据集根据社区划分,涵盖了从3D打印、经济学到Raspberry Pi或Emacs等多个领域。
  • 数据实例结构:
    • title_body: 问题的标题和正文的组合
    • upvoted_answer: 最高评分答案的正文
    • downvoted_answer: 最低评分答案的正文

数据集结构

  • 数据分割: 根据不同的社区频道提供多个分割,每个分割包含一定数量的Q&A对。例如,英语社区有13,003对,学术社区有2,465对等。

数据集创建

  • 采集理由: 主要设计用于句子嵌入训练,利用Stack Exchange等社区网络可以半自动构建大量示例。
  • 源数据: 来自Stack Exchange的数据转储。
  • 数据筛选: 过滤标题或正文长度小于20个字符的问题,以及正文长度超过4096个字符的问题。在提取最高评分答案时,筛选至少有100票差距的答案对。

附加信息

  • 许可证信息: 请参阅https://archive.org/details/stackexchange

  • 引用信息:

    @misc{StackExchangeDataset, author = {Flax Sentence Embeddings Team}, title = {Stack Exchange question pairs}, year = {2021}, howpublished = {https://huggingface.co/datasets/flax-sentence-embeddings/}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作