LLukas22/cqadupstack
收藏Hugging Face2023-04-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/LLukas22/cqadupstack
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
task_categories:
- sentence-similarity
- feature-extraction
language:
- en
size_categories:
- 100K<n<1M
---
# Dataset Card for "cqadupstack"
## Table of Contents
- [Table of Contents](#table-of-contents)
- [Dataset Description](#dataset-description)
- [Dataset Summary](#dataset-summary)
- [Dataset Structure](#dataset-structure)
- [Data Instances](#data-instances)
- [Data Fields](#data-fields)
- [Additional Information](#additional-information)
- [Licensing Information](#licensing-information)
## Dataset Description
- **Homepage:** [http://nlp.cis.unimelb.edu.au/resources/cqadupstack/](http://nlp.cis.unimelb.edu.au/resources/cqadupstack/)
### Dataset Summary
This is a preprocessed version of cqadupstack, to make it easily consumable via huggingface. The original dataset can be found [here](http://nlp.cis.unimelb.edu.au/resources/cqadupstack/).
CQADupStack is a benchmark dataset for community question-answering (cQA) research. It contains threads from twelve StackExchange1 subforums, annotated with duplicate question information and comes with pre-defined training, development, and test splits, both for retrieval and classification experiments.
## Dataset Structure
### Data Instances
An example of 'train' looks as follows.
```json
{
"question": "Very often, when some unknown company is calling me, in couple of seconds I see its name and logo on standard ...",
"answer": "You didn't explicitely mention it, but from the context I assume you're using a device with Android 4.4 (Kitkat). With that ...",
"title": "Why Dialer shows contact name and image, when contact is not in my address book?",
"forum_tag": "android"
}
```
### Data Fields
The data fields are the same among all splits.
- `question`: a `string` feature.
- `answer`: a `string` feature.
- `title`: a `string` feature.
- `forum_tag`: a categorical `string` feature.
## Additional Information
### Licensing Information
This dataset is distributed under the Apache 2.0 licence.
许可证:Apache-2.0
任务类别:
- 句子相似度(sentence-similarity)
- 特征提取(feature-extraction)
语言:
- 英文(en)
规模类别:
- 10万<样本量<100万
---
# 「cqadupstack」数据集卡片
## 目录
- [目录](#table-of-contents)
- [数据集描述](#dataset-description)
- [数据集概述](#dataset-summary)
- [数据集结构](#dataset-structure)
- [数据实例](#data-instances)
- [数据字段](#data-fields)
- [附加信息](#additional-information)
- [许可信息](#licensing-information)
## 数据集描述
- **主页**:[http://nlp.cis.unimelb.edu.au/resources/cqadupstack/](http://nlp.cis.unimelb.edu.au/resources/cqadupstack/)
### 数据集概述
本版本为cqadupstack的预处理版本,可通过Hugging Face便捷调用使用。原始数据集可在[此处](http://nlp.cis.unimelb.edu.au/resources/cqadupstack/)获取。
CQADupStack是用于社区问答(community question-answering, cQA)研究的基准数据集。其包含来自12个StackExchange子论坛的讨论串,标注了重复问题信息,并针对检索与分类实验提供了预定义的训练、验证与测试划分。
## 数据集结构
### 数据实例
「训练集」的一则示例如下:
json
{
"question": "Very often, when some unknown company is calling me, in couple of seconds I see its name and logo on standard ...",
"answer": "You didn't explicitely mention it, but from the context I assume you're using a device with Android 4.4 (Kitkat). With that ...",
"title": "Why Dialer shows contact name and image, when contact is not in my address book?",
"forum_tag": "android"
}
### 数据字段
所有数据划分的数据字段均保持一致:
- `question`:字符串类型特征
- `answer`:字符串类型特征
- `title`:字符串类型特征
- `forum_tag`:分类字符串特征
## 附加信息
### 许可信息
本数据集采用Apache 2.0许可证进行分发。
提供机构:
LLukas22
原始信息汇总
数据集概述
数据集描述
- 名称: CQADupStack
- 类别: 社区问答研究基准数据集
- 内容: 包含来自十二个StackExchange子论坛的讨论线程,带有重复问题信息,并预定义了训练、开发和测试分割,适用于检索和分类实验。
数据集结构
数据实例
- 示例: json { "question": "Very often, when some unknown company is calling me, in couple of seconds I see its name and logo on standard ...", "answer": "You didnt explicitely mention it, but from the context I assume youre using a device with Android 4.4 (Kitkat). With that ...", "title": "Why Dialer shows contact name and image, when contact is not in my address book?", "forum_tag": "android" }
数据字段
question: 字符串类型answer: 字符串类型title: 字符串类型forum_tag: 分类字符串类型
附加信息
许可信息
- 许可: Apache 2.0
搜集汇总
数据集介绍

构建方式
在社区问答研究领域,CQADupStack数据集作为一项重要资源,其构建过程体现了严谨的学术规范。该数据集源自StackExchange平台的十二个子论坛,通过系统性地收集真实用户互动产生的问答线程,并依据重复问题信息进行人工标注。原始数据经过预处理流程,转化为易于通过HuggingFace平台消费的标准化格式,同时保留了预定义的数据划分,为检索与分类实验提供了结构化基础。
使用方法
研究人员可借助HuggingFace库便捷加载此数据集,直接用于句子相似性计算或特征提取模型的训练与评估。典型应用流程包括:利用`question`与`answer`字段构建正负样本对,进行语义匹配学习;或结合`forum_tag`实现跨领域迁移分析。数据已按标准分割就绪,支持开箱即用的实验设计,同时其Apache 2.0许可保障了学术与商业使用的灵活性。
背景与挑战
背景概述
在自然语言处理领域,社区问答研究旨在提升对用户生成内容的理解与检索能力。CQADupStack数据集由墨尔本大学自然语言处理团队于2015年左右构建,作为社区问答研究的基准数据集,其核心研究问题聚焦于重复问题检测与答案检索。该数据集整合了十二个StackExchange子论坛的问答线程,通过标注重复问题信息,为信息检索与文本分类实验提供了标准化的训练、开发与测试划分,显著推动了社区问答系统的性能评估与算法比较研究。
当前挑战
CQADupStack数据集致力于解决社区问答中重复问题检测与答案检索的挑战,其难点在于跨领域语义相似性判断,即如何准确识别不同表述但语义等价的问题。在构建过程中,数据集面临多领域数据整合的复杂性,需从异构的StackExchange子论坛中提取并统一标注格式,同时确保数据质量与标注一致性,以支撑可靠的模型训练与评估。
常用场景
经典使用场景
在社区问答系统研究中,cqadupstack数据集常被用于评估文本相似度模型的性能。该数据集整合了十二个StackExchange子论坛的问答线程,并标注了重复问题信息,为研究者提供了标准化的训练、开发和测试划分。通过该数据集,学者能够系统地训练和验证模型在跨领域问答匹配任务中的表现,尤其在处理复杂语义相似性判断方面展现出重要价值。
解决学术问题
该数据集有效解决了社区问答领域中重复问题检测与语义匹配的学术挑战。通过提供多领域标注数据,它支持研究者探索如何准确识别语义相近但表述各异的问题,从而提升问答系统的检索效率与知识库利用率。其标准化划分促进了模型性能的公平比较,推动了自然语言处理中相似度计算与信息检索方法的创新与发展。
实际应用
在实际应用中,cqadupstack数据集为构建智能问答社区与客服系统提供了关键数据支撑。基于该数据集训练的模型可部署于在线论坛或知识平台,自动关联相似问题与答案,减少重复提问并加速信息获取。这不仅优化了用户体验,也降低了平台维护成本,尤其在技术支持、学术讨论等垂直领域展现出广泛的应用潜力。
数据集最近研究
最新研究方向
在社区问答研究领域,CQADupStack数据集作为多领域重复问题检测的基准,正推动着语义相似性计算的前沿探索。当前研究聚焦于跨领域迁移学习与领域自适应方法,旨在提升模型在十二个StackExchange子论坛中的泛化能力。结合预训练语言模型如BERT与对比学习技术,学者们致力于优化问答对的表示学习,以精准识别语义重复问题。这一方向不仅呼应了大规模在线社区中高效信息检索的迫切需求,也为多任务学习与低资源场景下的自然语言处理应用提供了关键实验支撑。
以上内容由遇见数据集搜集并总结生成



