flax-sentence-embeddings/stackexchange_math_jsonl
收藏Hugging Face2022-07-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/flax-sentence-embeddings/stackexchange_math_jsonl
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从Stack Exchange网络中自动提取的问题和答案对,涵盖了多个领域的社区,如3D打印、经济学、Raspberry Pi等。数据集主要用于句子嵌入训练,采用对比学习设置。数据集包含三个不同的分割,分别包含不同结构的信息。数据集的创建过程包括从Stack Exchange收集数据,并进行过滤和标准化处理。数据集的语言主要为英语。
提供机构:
flax-sentence-embeddings
原始信息汇总
数据集概述
数据集名称
- 名称: stackexchange
语言
- 主要语言: en
许可证
- 许可证: cc-by-nc-sa-4.0
多语言性
- 多语言性: 多语言
数据集大小
- 大小: 未知
源数据集
- 源数据: 原始数据
任务类别
- 任务类别: 问答
任务ID
- 任务ID: closed-domain-qa
数据集详情
数据集总结
- 总结: 从Stack Exchange网络自动提取的问题和答案(Q&A)对。该数据集是一个平行语料库,每个问题映射到最高评分的答案。数据集根据社区进行分割,覆盖了从3D打印到经济学等多个领域。
数据结构
- 数据实例: 每个数据样本包含问题标题和正文、最高评分答案和最低评分答案。
- 数据字段: 包括
title_body(问题标题和正文)、upvoted_answer(最高评分答案)、downvoted_answer(最低评分答案)和title(问题标题)。 - 数据分割: 提供三种分割方式,包括包含问题标题和正文以及最高评分和最低评分答案的分割,仅包含问题标题和最高评分答案的分割,以及包含问题标题和正文以及最高评分答案的分割。
数据集创建
- 创建理由: 主要用于句子嵌入训练,利用对比学习设置,模型训练以关联每个句子与其对应的多项提议中的配对。
- 源数据: 来自Stack Exchange的数据转储。
- 初始数据收集和规范化: 从数学社区收集数据,过滤掉标题或正文长度小于20个字符的问题,以及正文长度超过4096个字符的问题。提取最高评分答案时,筛选至少有100票差距的答案对。
- 源语言生产者: 问题和答案由Stack Exchange社区开发者编写。
附加信息
-
许可证信息: 请参阅https://archive.org/details/stackexchange的许可证信息。
-
引用信息:
@misc{StackExchangeDataset, author = {Flax Sentence Embeddings Team}, title = {Stack Exchange question pairs}, year = {2021}, howpublished = {https://huggingface.co/datasets/flax-sentence-embeddings/}, }
-
贡献者: Flax Sentence Embeddings团队。



