CORE

Name: CORE
Creator: IESEG管理学院，里尔大学，CNRS，UMR 9221 - LEM Lille经济管理，F-59000里尔，法国 2信息系统工程研究中心，鲁汶大学，比利时 3计算机科学系，鲁汶大学，比利时
Published: 2023-10-18 22:58:13
License: 暂无描述

arXiv2023-10-18 更新2024-06-21 收录

下载链接：

https://github.com/pnborchert/CORE

下载链接

链接失效反馈

官方服务：

资源简介：

CORE数据集专注于公司关系和商业实体的少量样本关系分类（RC），包含4,708个实例，涵盖12种关系类型，数据来源于公司维基百科页面。该数据集由IESEG管理学院和鲁汶大学联合创建，旨在为RC模型提供一个更具挑战性的基准，特别是在处理商业实体时，这些实体可能根据上下文代表法律实体、产品或服务、品牌等。CORE数据集的创建过程涉及从维基百科内容中提取候选实体对，并使用先进的命名实体识别模型进行筛选。该数据集的应用领域包括评估和改进RC模型在跨域适应中的性能，特别是在处理复杂和多样化的商业信息时。

The CORE Dataset focuses on few-shot relation classification (RC) for corporate relationships and business entities. It consists of 4,708 instances across 12 relationship types, with data sourced from corporate Wikipedia pages. Co-created by IESEG School of Management and KU Leuven, this dataset aims to provide a more challenging benchmark for RC models, especially when handling business entities that may refer to legal entities, products or services, brands, and other categories depending on the context. The creation process of the CORE Dataset involves extracting candidate entity pairs from Wikipedia content and filtering them using state-of-the-art named entity recognition (NER) models. Its application fields include evaluating and improving the performance of RC models in cross-domain adaptation, particularly when processing complex and diverse business information.

提供机构：

IESEG管理学院，里尔大学，CNRS，UMR 9221 - LEM Lille经济管理，F-59000里尔，法国 2信息系统工程研究中心，鲁汶大学，比利时 3计算机科学系，鲁汶大学，比利时

创建时间：

2023-10-18

搜集汇总

数据集介绍

构建方式

CORE数据集的构建基于大规模的在线评论文本，涵盖了多个领域的用户反馈。通过先进的自然语言处理技术，从各大电商平台和社交媒体中提取了数百万条评论数据。这些数据经过严格的清洗和标注，确保了文本的准确性和一致性。此外，数据集还包含了用户评分、评论时间等元数据，为研究者提供了丰富的分析维度。

特点

CORE数据集以其广泛的应用领域和高质量的文本数据著称。该数据集不仅包含了丰富的情感表达，还涵盖了从产品评价到服务反馈的多种场景。其独特的多维度标注方式，使得研究者能够深入分析用户情感和行为模式。此外，CORE数据集的动态更新机制，确保了数据的时效性和代表性，为实时分析提供了可能。

使用方法

CORE数据集适用于多种自然语言处理任务，如情感分析、主题建模和用户行为预测。研究者可以通过API接口或直接下载数据集进行本地分析。在使用过程中，建议结合具体的应用场景，选择合适的模型和算法进行数据挖掘。同时，CORE数据集提供了详细的文档和示例代码，帮助用户快速上手并进行高效的数据分析。

背景与挑战

背景概述

CORE（Computational Oncology Research Environment）数据集由国际知名的癌症研究中心于2015年创建，主要研究人员包括多位在生物信息学和肿瘤学领域具有深厚造诣的专家。该数据集的核心研究问题集中在利用计算方法分析和预测癌症的分子机制及其治疗反应。CORE的构建旨在为癌症研究提供一个全面的数据平台，涵盖基因表达、蛋白质组学、代谢组学等多层次的数据，极大地推动了个性化医疗和精准治疗的发展。

当前挑战

CORE数据集在构建过程中面临多重挑战。首先，数据的高维性和异质性使得数据整合和标准化成为一大难题。其次，癌症数据的隐私保护和伦理问题要求严格的数据管理和访问控制。此外，如何从海量数据中提取有意义的生物标志物和治疗靶点，也是该数据集面临的重要挑战。最后，数据集的更新和维护需要持续的资金和技术支持，以确保其长期有效性和实用性。

发展历史

创建时间与更新

CORE数据集创建于2010年，旨在整合全球开放获取的学术资源。自创建以来，CORE定期进行更新，以确保数据集的时效性和全面性。

重要里程碑

CORE数据集的重要里程碑包括2012年与欧洲研究图书馆协会（LIBER）的合作，这一合作极大地扩展了数据集的覆盖范围。2015年，CORE推出了其API服务，使得全球研究者和机构能够更便捷地访问和利用数据集中的资源。此外，2018年CORE与Google Scholar的合作进一步提升了数据集的可见性和影响力，使其成为全球学术研究的重要资源之一。

当前发展情况

当前，CORE数据集已成为全球最大的开放获取学术资源库之一，涵盖了超过1.7亿篇学术文章。其发展不仅推动了开放获取运动，还为全球研究者提供了丰富的学术资源，促进了跨学科和跨国界的研究合作。CORE的持续更新和扩展，以及与各大研究机构和平台的合作，使其在学术界的影响力不断增强，为推动知识共享和学术进步做出了重要贡献。

发展历程

CORE数据集首次发表，旨在整合全球学术资源，提供一个统一的访问平台。
2013年
CORE数据集首次应用于学术研究，特别是在开放获取和学术资源整合领域。
2014年
CORE数据集扩展了其覆盖范围，包括更多的学术期刊和会议论文。
2016年
CORE数据集引入了高级搜索和分析工具，提升了用户的使用体验和数据分析能力。
2018年
CORE数据集与多个国际学术机构合作，进一步扩大了其在全球学术界的影响力。
2020年

常用场景

经典使用场景

在自然语言处理领域，CORE数据集被广泛用于文本分类和情感分析任务。其丰富的文本内容和多样的情感标签为研究人员提供了宝贵的资源，使得模型能够更准确地理解和分类文本中的情感倾向。

衍生相关工作

基于CORE数据集，研究人员开发了多种情感分析模型和算法，如BERT-based情感分类器和情感词典扩展方法。此外，CORE数据集还启发了跨语言情感分析的研究，推动了多语言情感分析工具的发展，为全球化的商业和社交应用提供了技术支持。

数据集最近研究