CLEF-IP 2010
收藏DataCite Commons2024-08-27 更新2024-07-13 收录
下载链接:
https://researchdata.tuwien.ac.at/records/jqrsc-jbq51
下载链接
链接失效反馈官方服务:
资源简介:
CLEF-IP: Cross-Language Evaluation Forum - Intellectual PropertyThe CLEF-IP track was launched in 2009 to investigate IR techniques for patent retrieval and it is part of the CLEF 2010 evaluation campaign.The track utilizes a collection of more than 1.3M patent documents (~2.6 million files) derived from EPO (European Patent Office) sources, and published before 2001. The collection contains documents in English, French and German with at least 150,000 documents in each language. The task is to find patent documents that constitute prior art.There are two tasks in the 2010's track. The first one is to find patent documents that are candidates to constitute prior art for a given document. The second task is to classify a given document according to the International Patent Classification system (IPC). Relevance judgements are produced using the patent citations and meta-data (bibliographic data).FilesDocument CollectionThe collection contains over 2.6 million XML files.Topics and AnswersBoth the training and the test topic sets contain also the relevance assessments for the topics.GuidelinesDetailed explanation on how to work with the tasks from the corpus.
CLEF-IP:跨语言评测论坛——知识产权赛道(Cross-Language Evaluation Forum - Intellectual Property)
CLEF-IP赛道于2009年启动,旨在研究面向专利检索的信息检索(Information Retrieval, IR)技术,是2010年跨语言评测论坛(CLEF)评测活动的组成部分。该赛道使用的数据集包含超过130万篇专利文档(约260万个文件),数据源自欧洲专利局(European Patent Office, EPO)2001年之前公开的文献。数据集涵盖英语、法语和德语三种语言的文档,每种语言的文档数量均不少于15万篇。本次评测的核心任务为检索构成现有技术的专利文档。
2010年的赛道包含两项子任务:第一项任务是为给定专利文档检索潜在的现有技术候选专利文档;第二项任务是依据国际专利分类系统(International Patent Classification, IPC)对给定文档进行分类。相关性标注结果通过专利引用关系与元数据(文献著录数据)生成。
文件与数据集
该数据集包含超过260万个可扩展标记语言(Extensible Markup Language, XML)文件。
评测主题与关联答案
训练集与测试集的主题集合均包含对应主题的相关性标注结果。
评测指南
详细说明如何基于该语料库完成各项评测任务。
提供机构:
TU Wien
创建时间:
2021-11-30
搜集汇总
数据集介绍

背景与挑战
背景概述
CLEF-IP 2010是一个用于专利检索研究的测试集,包含来自欧洲专利局的130万份多语言专利文档,支持先前技术检索和国际专利分类任务。数据集规模庞大,涵盖英语、法语和德语,适用于信息检索技术的研究和评估。
以上内容由遇见数据集搜集并总结生成



