DAPFAM
收藏arXiv2025-06-27 更新2025-11-28 收录
下载链接:
https://osf.io/vbyzd/overview?view_only=1a40242e0d1941a58aa854af3e50cf6b
下载链接
链接失效反馈官方服务:
资源简介:
DAPFAM是一个基于专利家族级别的开放访问领域感知专利检索数据集。该数据集包含1247个领域平衡的全文本查询家族和45336个全文本目标家族。数据集通过基于国际专利分类(IPC)代码的创新标签方案丰富了清晰的关联判断(正向/反向引用作为积极链接,随机负面),并明确领域内或领域外关系,从而产生49869个评估对。数据集是多司法管辖区,对检索评估的预处理要求很少,对于资源有限的实体来说,其大小仍然可以管理,允许在不产生过高的计算成本的情况下进行子文档级别的检索实验。我们描述了我们的三步数据整理流程,展示了全面的数据集统计数据,并提供了使用词汇和神经检索方法的基线实验。我们的基线实验突出了跨领域专利检索中的重大挑战。数据集将公开可用(目前访问链接是这个存储库)。
提供机构:
INSA Strasbourg, ICUBE Laboratory
创建时间:
2025-06-27



