five

Stack Overflow Question Relatedness Dataset

收藏
arXiv2019-05-07 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/1905.01966v2
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集名为Stack Overflow Question Relatedness Dataset,由休斯敦大学和新加坡管理大学合作创建,包含超过30万对知识单元(问题线程)的相关性数据。数据集涵盖了四种相关性级别:重复、直接、间接和孤立。创建过程中,研究者从Stack Overflow数据转储中提取了与Java相关的知识单元,并通过URL共享验证了相关性。该数据集主要用于开发和评估预测技术社区问答论坛中问题相关性的模型,特别是对于数据需求较大的神经网络模型。

Named Stack Overflow Question Relatedness Dataset, this dataset was co-developed by the University of Houston and Singapore Management University. It contains over 300,000 pairs of relevance annotations for knowledge units, namely question threads. The dataset covers four relevance levels: duplicate, direct, indirect, and isolated. During its creation, researchers extracted Java-related knowledge units from Stack Overflow data dumps and validated the relevance of these pairs through URL sharing. This dataset is primarily used to develop and evaluate models for predicting question relevance in technical community Q&A forums, especially neural network models with high data requirements.
提供机构:
休斯敦大学 新加坡管理大学
创建时间:
2019-05-03
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作