five

CLEF-IP 2013

收藏
DataCite Commons2024-08-27 更新2024-07-13 收录
下载链接:
https://researchdata.tuwien.ac.at/records/nw2xc-41j75
下载链接
链接失效反馈
官方服务:
资源简介:
CLEF-IP: Cross-Language Evaluation Forum - Intellectual PropertyThe CLEF-IP track ran from 2009 to 2013 and aimed to investigate IR techniques for patent retrieval.The track utilizes a collection of more than 1.3M patent documents (~2.6 million files) derived from EPO (European Patent Office) sources and EuroPCT Applications (more than 400K documents) published by WIPO (World Intelectual Property Organization). The collection contains documents in English, French and German with at least 150,000 documents in each language, all published before 2001.There was one task in 2013: The first one was to find patent documents that are candidates to constitute prior art for a given claim taken from a patent document. FilesDocument CollectionThe corpus consists of two parts. The first one is a set of XML files representing a total of over 1.3 million patent documents - this collection is to be used for the first task.NOTE: the document collection is the same as the one published for CLEF-IP 2011, excluding images.Topics and AnswersBoth the training and the test topic sets contain also the relevance assessments for the topics.

CLEF-IP:跨语言评测论坛——知识产权赛道 CLEF-IP赛道于2009年至2013年期间举办,旨在探索面向专利检索的信息检索(Information Retrieval,IR)技术。该赛道的数据集源自欧洲专利局(European Patent Office, EPO)与世界知识产权组织(World Intellectual Property Organization, WIPO)发布的文档资源,包含超130万件专利文档(约260万个文件),其中世界知识产权组织发布的欧洲PCT(EuroPCT)申请文档超过40万件。 该数据集涵盖英语、法语、德语三种语言,每种语言至少包含15万件文档,所有文档均发布于2001年之前。 2013年仅设置一项任务:针对从某专利文档中提取的给定权利要求,检索可作为其现有技术(prior art)候选的专利文档。 文件与文档集合 该语料库包含两部分内容。第一部分为总计超130万件专利文档的可扩展标记语言(Extensible Markup Language, XML)文件集,该集合将用于本次任务。 注意:本次使用的文档集合与CLEF-IP 2011发布的集合完全一致,仅移除了图像文件。 主题与相关性评估 训练主题集与测试主题集均附带对应主题的相关性评估结果。
提供机构:
TU Wien
创建时间:
2021-11-30
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
CLEF-IP 2013是一个用于专利检索评估的测试集合,源自CLEF-IP系列(2009-2013年),旨在研究跨语言信息检索技术。数据集包含超过130万份专利文档,覆盖英语、法语和德语,主要任务是基于专利权利要求查找现有技术候选文档,适用于IR研究领域。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作