ASRC2017
收藏github2023-02-08 更新2024-05-31 收录
下载链接:
https://github.com/asrcdataset/asrc
下载链接
链接失效反馈官方服务:
资源简介:
ASRC2017数据集包含1279个文档,用于信息检索与博弈论的文档作者排名竞赛。数据集详细记录了文档的相关性和关键词填充的判断标准,以及文档的格式和编号方式。
The ASRC2017 dataset comprises 1,279 documents, designed for a competition focused on information retrieval and document author ranking in the context of game theory. The dataset meticulously documents the criteria for judging document relevance and keyword inclusion, as well as the formatting and numbering conventions of the documents.
创建时间:
2017-05-05
原始信息汇总
数据集概述
数据集名称
ASRC2017
数据集描述
ASRC2017,即Adversarial Search Collection 2017,是一个涉及信息检索与博弈论的文档排名竞赛数据集。
数据集内容
-
文档集合
- 包含1279个文档。
- 其中31个为初始相关文档(第0轮),1248个为后续轮次(第1至第8轮)由作者创建的文档。
- 897个文档为唯一文档。
- 文档格式为trectext。
- 文档编号格式为ROUND-<round_number>-<query_id>-<author_id>。
-
相关性判断
- 所有文档均进行了相关性评估。
- 评估基于文档标题和描述,满足信息需求的文档被视为相关。
- 相关性评分分为非相关(0)、边际相关(1)、相当相关(2)和高度相关(3)。
-
关键词填充判断
- 文档若包含过多重复且不自然的词汇,被视为关键词填充。
- 相关性评分分为非关键词填充(0)和关键词填充(1)。
竞赛详情
- 竞赛涉及52名信息检索课程的学生作为文档作者。
- 竞赛包括31个不同的重复匹配,每个匹配对应一个TRECs ClueWeb09查询。
- 每位作者参与三个匹配,最多有6位作者在同一匹配中竞争。
- 竞赛共进行8轮,每轮包含多个匹配。
引用信息
若使用此数据集,请引用以下文献:
@inproceedings{DBLP:conf/sigir/RaiferRTK17, author = {Nimrod Raifer and Fiana Raiber and Moshe Tennenholtz and Oren Kurland}, title = {Information Retrieval Meets Game Theory: The Ranking Competition Between Documents Authors}, booktitle = {Proceedings of the 40th International {ACM} {SIGIR} Conference on Research and Development in Information Retrieval, Shinjuku, Tokyo, Japan, August 7-11, 2017}, pages = {465--474}, year = {2017}, doi = {10.1145/3077136.3080785} }
搜集汇总
数据集介绍

构建方式
ASRC2017数据集的构建基于信息检索与博弈论的结合,旨在研究文档作者在排名竞争中的策略行为。数据集包含1279个文档,其中31个为初始相关文档,其余1248个文档由52名高年级本科生和研究生在8轮比赛中创建。每轮比赛围绕不同的TREC ClueWeb09查询展开,参赛者通过LambdaMART学习排序模型生成文档。文档格式为trectext,文档编号遵循ROUND-<round_number>-<query_id>-<author_id>的格式。
特点
ASRC2017数据集的特点在于其独特的博弈论背景和文档生成机制。数据集不仅包含文档内容,还提供了详细的文档相关性标注和关键词堆砌标注。相关性标注由多名标注者完成,分为非相关、边际相关、较相关和高度相关四个等级。关键词堆砌标注则用于识别文档中是否存在不自然的关键词重复现象。此外,数据集通过多轮比赛模拟了文档作者在排名竞争中的动态行为,为研究信息检索中的策略优化提供了丰富的数据支持。
使用方法
ASRC2017数据集的使用方法主要围绕信息检索和博弈论研究展开。研究者可以通过分析文档生成过程、相关性标注和关键词堆砌标注,探索文档作者在排名竞争中的策略行为。数据集支持基于LambdaMART的学习排序模型训练,可用于优化信息检索系统的性能。此外,研究者还可以结合TREC ClueWeb09查询,进一步验证和改进检索算法。使用该数据集时,需引用相关论文以尊重数据集的学术贡献。
背景与挑战
背景概述
ASRC2017数据集由Nimrod Raifer等研究人员于2017年创建,旨在探索信息检索与博弈论的交叉领域。该数据集的核心研究问题聚焦于文档作者在排名竞争中的策略行为,特别是在面对不同查询时的动态调整。数据集包含1279篇文档,其中31篇为初始相关文档,其余1248篇由52名高年级本科生和研究生在8轮比赛中生成。这些文档通过TREC的ClueWeb09查询进行评估,并使用LambdaMART学习排序模型进行排名。该数据集为研究信息检索中的博弈行为提供了宝贵的实验平台,推动了相关领域的研究进展。
当前挑战
ASRC2017数据集在解决信息检索中的博弈行为问题时,面临多重挑战。首先,文档作者在竞争中的策略行为具有高度动态性,如何准确捕捉并量化这些行为成为一大难题。其次,数据集的构建过程中,文档的相关性评估依赖于多名标注者的主观判断,尽管采用了多数投票机制,但仍可能存在标注不一致的问题。此外,关键词堆砌现象的识别也依赖于人工标注,标注者的主观性可能影响结果的可靠性。最后,数据集的规模相对较小,可能限制了其在更广泛场景中的应用和泛化能力。
常用场景
经典使用场景
ASRC2017数据集在信息检索与博弈论交叉领域的研究中扮演了重要角色。该数据集通过模拟文档作者之间的排名竞争,提供了一个独特的实验平台,用于研究文档作者在信息检索系统中的策略行为。研究者可以利用该数据集分析作者如何通过调整文档内容来优化其在搜索引擎中的排名,从而揭示信息检索系统中的博弈动态。
解决学术问题
ASRC2017数据集解决了信息检索领域中关于文档作者策略行为的若干关键问题。通过引入博弈论框架,该数据集帮助研究者理解作者如何在竞争环境中优化文档内容以提升排名。此外,数据集中的关键词填充标注(ksrels)为研究文档内容质量与排名之间的关系提供了重要数据支持,进一步推动了信息检索系统的公平性与透明性研究。
衍生相关工作
ASRC2017数据集衍生了一系列经典研究工作,特别是在信息检索与博弈论交叉领域。例如,基于该数据集的研究揭示了文档作者在排名竞争中的策略选择及其对搜索结果的影响。此外,该数据集还推动了学习排序(Learning to Rank)算法的改进,特别是在处理文档内容质量与排名关系方面。这些研究不仅丰富了信息检索理论,还为实际应用提供了重要的技术支撑。
以上内容由遇见数据集搜集并总结生成



