flax-sentence-embeddings/stackexchange_math_jsonl

Name: flax-sentence-embeddings/stackexchange_math_jsonl
Creator: flax-sentence-embeddings
Published: 2022-07-11 13:12:59
License: 暂无描述

Hugging Face2022-07-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/flax-sentence-embeddings/stackexchange_math_jsonl

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从Stack Exchange网络中自动提取的问题和答案对，涵盖了多个领域的社区，如3D打印、经济学、Raspberry Pi等。数据集主要用于句子嵌入训练，采用对比学习设置。数据集包含三个不同的分割，分别包含不同结构的信息。数据集的创建过程包括从Stack Exchange收集数据，并进行过滤和标准化处理。数据集的语言主要为英语。

提供机构：

flax-sentence-embeddings

原始信息汇总

数据集概述

数据集名称

名称: stackexchange

语言

主要语言: en

许可证

许可证: cc-by-nc-sa-4.0

多语言性

多语言性: 多语言

数据集大小

大小: 未知

源数据集

源数据: 原始数据

任务类别

任务类别: 问答

任务ID

任务ID: closed-domain-qa

数据集详情

数据集总结

总结: 从Stack Exchange网络自动提取的问题和答案（Q&A）对。该数据集是一个平行语料库，每个问题映射到最高评分的答案。数据集根据社区进行分割，覆盖了从3D打印到经济学等多个领域。

数据结构

数据实例: 每个数据样本包含问题标题和正文、最高评分答案和最低评分答案。
数据字段: 包括title_body（问题标题和正文）、upvoted_answer（最高评分答案）、downvoted_answer（最低评分答案）和title（问题标题）。
数据分割: 提供三种分割方式，包括包含问题标题和正文以及最高评分和最低评分答案的分割，仅包含问题标题和最高评分答案的分割，以及包含问题标题和正文以及最高评分答案的分割。

数据集创建

创建理由: 主要用于句子嵌入训练，利用对比学习设置，模型训练以关联每个句子与其对应的多项提议中的配对。
源数据: 来自Stack Exchange的数据转储。
初始数据收集和规范化: 从数学社区收集数据，过滤掉标题或正文长度小于20个字符的问题，以及正文长度超过4096个字符的问题。提取最高评分答案时，筛选至少有100票差距的答案对。
源语言生产者: 问题和答案由Stack Exchange社区开发者编写。

附加信息

许可证信息: 请参阅https://archive.org/details/stackexchange的许可证信息。
引用信息:

@misc{StackExchangeDataset, author = {Flax Sentence Embeddings Team}, title = {Stack Exchange question pairs}, year = {2021}, howpublished = {https://huggingface.co/datasets/flax-sentence-embeddings/}, }
贡献者: Flax Sentence Embeddings团队。

5,000+

优质数据集

54 个

任务类型

进入经典数据集