askubuntu-questions

Name: askubuntu-questions
Creator: Sentence Transformers
Published: 2026-01-29 20:01:34
License: 暂无描述

Hugging Face2026-01-29 更新2026-01-30 收录

下载链接：

https://huggingface.co/datasets/sentence-transformers/askubuntu-questions

下载链接

链接失效反馈

官方服务：

资源简介：

AskUbuntu Questions 数据集（Lei et al., 2016）是一个从 AskUbuntu.com 2014 语料库转储中提取并经过预处理的问答集合。该数据集还包含 400*20 个人工标注，标记了问题对之间的“相似”或“不相似”关系。数据集来源于原始的 GitHub 仓库，包含了原始数据源中的所有问题，即 `text_tokenized.txt.gz` 文件中的查询部分。数据集包含一个名为“text”的字符串类型列，展示了问题的文本内容。训练集包含 27,444 个示例，总大小为 1,419,923 字节。数据集未进行去重处理，适用于句子嵌入、问答系统相似性检测等任务。示例数据格式为：{"text": "how to get the `` your battery is broken '' message to go away ?"}。

提供机构：

Sentence Transformers

创建时间：

2026-01-29

原始信息汇总

AskUbuntu Questions 数据集概述

数据集来源

该数据集源自AskUbuntu.com 2014语料库转储，是一个经过预处理的问答集合。
数据来源于原始GitHub仓库：https://github.com/taolei87/askubuntu。
本数据集包含了原始来源中的所有问题，即text_tokenized.txt.gz文件中的数据。

数据集内容

数据特征：包含一个名为“text”的列，数据类型为字符串（string）。
数据示例：{"text": "how to get the `` your battery is broken message to go away ?"}
数据规模：
- 训练集（train）包含27,444个样本。
- 训练集文件大小为1,419,923字节。
- 下载文件大小为920,845字节。
数据语言：英语（en）。
数据标签：sentence-transformers。

数据集结构

配置名称：default。
数据文件：训练集数据文件路径为data/train-*。
数据去重：未进行去重处理。
数据收集策略：从原始来源下载text_tokenized.txt.gz文件并仅上传查询问题。

相关数据集

另请参阅 https://huggingface.co/datasets/sentence-transformers/askubuntu，该数据集在训练集、开发集和测试集中包含重复的问题。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，针对社区问答平台的数据集构建具有重要研究价值。AskUbuntu Questions数据集源自AskUbuntu.com 2014年语料库转储，经过系统化预处理提取出原始问题文本。数据采集策略侧重于从原始GitHub仓库下载`text_tokenized.txt.gz`压缩文件，并专门筛选出问题查询部分进行整合，该过程保留了社区问答场景的真实语言特征。数据集未进行去重处理，完整呈现了平台原始问题分布状态，同时配套包含400组人工标注的相似性问题对，为语义相似度研究提供了可靠标注基础。

使用方法

在实践应用中，该数据集主要服务于句子嵌入模型训练与语义相似度计算任务。研究人员可直接加载文本字段进行无监督对比学习，利用技术问答之间的语义关联性训练鲁棒的句子表示。对于有监督任务，可结合标注的问题对数据构建二分类训练集，训练模型识别问题间的语义等价关系。在评估阶段，标注的问题对可作为测试集，用于衡量模型在技术问答场景下的语义理解能力。由于数据集未划分训练验证测试分割，使用者需根据研究需求自行设计数据划分方案，亦可参考sentence-transformers组织提供的已分割版本进行对比实验。

背景与挑战

背景概述

AskUbuntu Questions数据集由Lei等人于2016年构建，源自AskUbuntu.com在2014年的语料库转储，专注于自然语言处理领域中的文本相似度计算与问答匹配任务。该数据集由研究人员或机构精心整理，旨在通过预处理的Ubuntu技术社区提问，探索语义相似性检测的核心研究问题，为信息检索与智能问答系统提供关键数据支撑。其包含的400*20人工标注相似对，显著推动了句子嵌入模型与语义匹配算法的发展，对社区驱动的技术问答平台优化产生了深远影响。

当前挑战

该数据集致力于解决文本相似度计算与重复问题检测的领域挑战，具体包括如何准确识别语义相近但表述各异的技术提问，以及如何在开放域问答中提升匹配精度。在构建过程中，研究人员面临从非结构化社区数据中提取高质量问答对的困难，需克服噪声过滤、标注一致性维护及数据平衡性保障等挑战，这些因素共同制约了模型在真实场景中的泛化能力。

常用场景

经典使用场景

在自然语言处理领域，AskUbuntu Questions数据集常被用于评估和训练句子嵌入模型，特别是在社区问答场景中。该数据集通过提供大量来自AskUbuntu.com的实际技术问题，为研究者构建了丰富的语义相似度计算环境。经典使用场景包括利用其标注的相似问题对，训练模型以准确识别用户查询之间的语义关联，从而优化问答系统的检索性能。

解决学术问题

该数据集有效解决了社区问答系统中语义相似度计算的挑战，为学术研究提供了标准化的评估基准。通过提供手动标注的相似与非相似问题对，它支持了监督学习方法的开发，促进了句子表示学习领域的进展。其意义在于推动了基于深度学习的语义匹配模型研究，影响了信息检索和自然语言理解方向的技术创新。

实际应用

在实际应用中，AskUbuntu Questions数据集被广泛集成到智能技术支持平台中，用于构建自动化问答机器人。通过训练模型识别相似技术问题，系统能够快速检索历史解决方案，提升用户支持效率。此外，该数据集还应用于教育技术工具，帮助学习者通过语义匹配找到相关学习资源，优化知识获取体验。

数据集最近研究