MOLE

Hugging Face2025-05-28 更新2025-05-29 收录

下载链接：

https://huggingface.co/datasets/IVUL-KAUST/MOLE

下载链接

链接失效反馈

官方服务：

资源简介：

MOLE是一个用于评估和验证科学论文中提取的元数据的数据集，包含52篇经过注释的论文。它支持多种语言，并适用于特征提取等自然语言处理任务。

创建时间：

2025-05-22

原始信息汇总

MOLE 数据集概述

基本信息

名称: MOLE (Metadata Extraction and Validation in Scientific Papers)
语言: 英语 (en)、阿拉伯语 (ar)、法语 (fr)、日语 (jp)、俄语 (ru)
许可证: Apache 2.0
规模类别: 小于1K样本 (n<1K)
任务类别: 特征提取 (feature-extraction)
标签: 元数据 (metadata)、提取 (extraction)、验证 (validation)

数据集结构

主要属性:
- Name (str): 数据集名称
- Subsets (List[Dict[Name, Volume, Unit, Dialect]]): 数据集的方言子集
- Link (url): 数据集访问链接
- HF Link (url): Huggingface数据集链接
- License (str): 数据集许可证
- Year (date[year]): 数据集发布年份
- Language (str): 数据集语言
- Dialect (str): 数据集方言
- Domain (List[str]): 数据集来源
- Form (str): 数据形式
- Collection Style (List[str]): 数据集收集方式
- Description (str): 数据集描述
- Volume (float): 数据集大小
- Unit (str): 数据集包含的示例类型
- Ethical Risks (str): 数据集的伦理风险级别
- Provider (List[str]): 数据集提供者
- Derived From (List[str]): 用于创建该数据集的数据集
- Paper Title (str): 论文标题
- Paper Link (url): 论文链接
- Script (str): 数据集脚本
- Tokenized (bool): 数据集是否已分词
- Host (str): 数据集托管仓库名称
- Access (str): 数据集可访问性
- Cost (str): 数据集费用（若非免费）
- Test Split (bool): 数据集是否包含训练/验证和测试分割
- Tasks (List[str]): 数据集适用的NLP任务
- Venue Title (str): 论文发表场所标题
- Venue Type (str): 场所类型
- Venue Name (str): 论文发表场所全称
- Authors (List[str]): 论文作者
- Affiliations (List[str]): 作者所属机构
- Abstract (str): 论文摘要

加载数据集

python from datasets import load_dataset dataset = load_dataset(IVUL-KAUST/mole)

样本示例

python { "metadata": { "Name": "TUNIZI", "Subsets": [], "Link": "https://github.com/chaymafourati/TUNIZI-Sentiment-Analysis-Tunisian-Arabizi-Dataset", "HF Link": "", "License": "unknown", "Year": 2020, "Language": "ar", "Dialect": "Tunisia", "Domain": ["social media"], "Form": "text", "Collection Style": ["crawling", "manual curation", "human annotation"], "Description": "TUNIZI is a sentiment analysis dataset of over 9,000 Tunisian Arabizi sentences collected from YouTube comments, preprocessed, and manually annotated by native Tunisian speakers.", "Volume": 9210.0, "Unit": "sentences", "Ethical Risks": "Medium", "Provider": ["iCompass"], "Derived From": [], "Paper Title": "TUNIZI: A TUNISIAN ARABIZI SENTIMENT ANALYSIS DATASET", "Paper Link": "https://arxiv.org/abs/2004.14303", "Script": "Latin", "Tokenized": false, "Host": "GitHub", "Access": "Free", "Cost": "", "Test Split": false, "Tasks": ["sentiment analysis"], "Venue Title": "International Conference on Learning Representations", "Venue Type": "conference", "Venue Name": "International Conference on Learning Representations 2020", "Authors": ["Chayma Fourati", "Abir Messaoudi", "Hatem Haddad"], "Affiliations": ["iCompass"], "Abstract": "On social media, Arabic people tend to express themselves in their own local dialects. More particularly, Tunisians use the informal way called Tunisian Arabizi. Analytical studies seek to explore and recognize online opinions aiming to exploit them for planning and prediction purposes such as measuring the customer satisfaction and establishing sales and marketing strategies. However, analytical studies based on Deep Learning are data hungry. On the other hand, African languages and dialects are considered low resource languages. For instance, to the best of our knowledge, no annotated Tunisian Arabizi dataset exists. In this paper, we introduce TUNIZI as a sentiment analysis Tunisian Arabizi Dataset, collected from social networks, preprocessed for analytical studies and annotated manually by Tunisian native speakers." } }

局限性

数据集包含52篇标注论文，可能不足以全面评估LLMs。

许可证

许可证类型: Apache 2.0
许可证链接: https://www.apache.org/licenses/LICENSE-2.0

引用

bibtex @misc{mole, title={MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs}, author={Zaid Alyafeai and Maged S. Al-Shaibani and Bernard Ghanem}, year={2025}, eprint={2505.19800}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.19800}, }

搜集汇总

数据集介绍

构建方式

在科学文献元数据管理领域，MOLE数据集的构建采用了系统化的标注流程。研究团队从多语言科学论文中提取关键元数据字段，涵盖名称、许可证、语言、领域等42个维度。每个字段均配备二元存在标识，通过人工标注与交叉验证确保数据质量。构建过程聚焦于真实学术场景，收录的132个样本均源于已发表的论文数据集描述部分，体现了学术资源的典型特征。

特点

MOLE数据集的核心特征体现在其多维元数据架构上。该数据集囊括了学术数据集的全生命周期属性，从基础描述（如名称、年份）到技术细节（如分词状态、脚本类型），乃至学术背景（作者、会议信息）。特别设计的存在性标识字段为元数据完整性研究提供量化依据。数据集覆盖英语、阿拉伯语、法语等五种语言，样本规模虽不足千例，但每个样本均包含完整的结构化元数据图谱。

使用方法

该数据集可通过HuggingFace平台直接加载使用，支持标准化的数据处理流程。研究人员使用datasets库调用load_dataset('IVUL-KAUST/mole')即可获取结构化数据，适用于元数据提取模型的训练与验证。典型应用场景包括评估大语言模型在科学文献中的信息抽取能力，或作为学术资源管理系统的基准测试数据。数据以Apache 2.0许可发布，支持学术和商业用途的二次开发。

背景与挑战

背景概述

MOLE数据集由阿卜杜拉国王科技大学（KAUST）的研究团队于2025年创建，旨在解决科学文献中元数据自动提取与验证的核心问题。该数据集聚焦于多语言科学论文的元数据标注，涵盖英语、阿拉伯语、法语、日语和俄语等多种语言，涉及特征提取、元数据验证等自然语言处理任务。通过系统化标注论文中的数据集名称、授权信息、语言变体、伦理风险等32类元数据属性，MOLE为提升学术资源管理的自动化水平提供了重要基准，对推动科学文献结构化与可追溯性研究具有显著影响力。

当前挑战

在科学文献元数据提取领域，MOLE需应对异构论文格式导致的元数据分布稀疏性挑战，例如不同期刊的版式差异使得作者隶属关系、数据集采集方式等关键信息定位困难。构建过程中，研究团队面临多语言混合文本的语义边界模糊问题，尤其需要处理阿拉伯语右向书写与拉丁字母混排的特殊场景。此外，元数据字段间存在的逻辑依赖关系（如方言变体与语言主体的对应性）要求标注体系具备严格的逻辑一致性，而当前仅52篇论文的规模限制了模型对长尾元数据模式的泛化能力。

常用场景

经典使用场景

在科学文献元数据管理领域，MOLE数据集被广泛用于评估和验证从学术论文中自动提取的元数据质量。该数据集通过标注论文中的关键属性如数据集名称、语言、许可证和任务类型，为元数据提取模型提供了标准化的测试基准。研究人员利用MOLE来训练和微调大型语言模型，使其能够准确识别和结构化科学文献中的元数据信息，从而提升自动化文献管理的效率。

解决学术问题

MOLE数据集主要解决了科学文献元数据提取中的标准化评估难题。传统方法缺乏统一的验证基准，导致不同研究结果难以比较。该数据集通过提供多语言、多领域的标注样本，使研究者能够系统评估模型在识别许可证、数据量、伦理风险等复杂属性时的性能。这一工作推动了元数据提取领域从启发式规则向数据驱动方法的转变，为构建可复现的研究框架奠定了基础。

衍生相关工作

围绕MOLE数据集衍生的经典研究包括基于LLM的元数据提取流水线优化工作。部分研究利用其标注框架开发了多模态元数据验证系统，将文本与版面布局特征相结合以提升提取精度。另有工作扩展了MOLE的评估维度，针对低资源语言或特定学科领域构建了专项评测集，形成了以MOLE为核心的元数据研究生态链，推动了科学文献智能处理技术的迭代发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集