wikipedia-physics-corpus

Hugging Face2024-11-27 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/arnosimons/wikipedia-physics-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Wikipedia-Physics Corpus包含从6,642篇与物理相关的维基百科文章中提取的102,409个段落，以及在885个段落中出现的1,186次“Planck”的词义标签。数据集的主要目的是用于分析物理概念的含义。数据集的构建过程包括使用PetScan工具选择文章、去除标记并进行最小化清理，同时保留所有公式。此外，数据集还对“Planck”一词的1,186次出现进行了标签化，标签表示该词的不同含义，如PERSON、CONSTANT、UNITS、LAW、MPS、MISSION和FOKKER。

创建时间：

2024-11-21

原始信息汇总

Wikipedia-Physics Corpus

概述

名称: Wikipedia-Physics Corpus
包含内容: 102,409个段落，来自6,642篇与物理学相关的维基百科文章，以及1,186个“Planck”词义标签，分布在885个段落中。
主要用途: 用于分析物理学概念的含义。

数据集结构

列名	描述
text	段落的完整文本
length	段落中的Unicode字符数
page_title	维基百科文章的标题
url	维基百科文章的URL
text_id	文本/段落的ID
paragraph_idx	文本/段落的相对索引
year	维基百科文章下载的年份
month	维基百科文章下载的月份
day	维基百科文章下载的日期
minute	维基百科文章下载的分钟
second	维基百科文章下载的秒
num_planck_labels	段落中“Planck”标签的数量
planck_labels	段落中所有“Planck”词义标签的列表

构建过程

文章选择: 使用PetScan工具生成所有分类在“物理学”及其直接子类别下的页面列表。
文本处理: 去除标记，进行最小化清理，保留所有公式，移除参考文献。
词义标签: 1,186个“Planck”词义标签通过不区分大小写的正则表达式识别，排除无关形式，标签包括PERSON, CONSTANT, UNITS, LAW, MPS, MISSION, FOKKER等。

详细信息

开发者: Arno Simons
资助: 由欧盟资助，Grant agreement ID: 101044932
语言: 英语

搜集汇总

数据集介绍

构建方式

Wikipedia-Physics Corpus的构建过程始于通过PetScan工具筛选出所有归类于“物理学”及其直接子类别的维基百科页面。随后，移除了页面中的标记和参考文献，仅保留公式，并对文本进行最小化清理，最终生成了纯文本段落。此外，使用不区分大小写的正则表达式识别了885个段落中的1,186个“Planck”术语的变体，并为每个术语标注了其具体含义，如PERSON、CONSTANT、UNITS等。

特点

该数据集包含了从6,642篇关键物理学相关维基百科文章中提取的102,409个段落，并特别标注了“Planck”术语的1,186个出现实例。每个段落均附有详细的元数据，包括文本内容、段落长度、文章标题、URL、文本ID、段落索引以及下载时间等。此外，数据集还提供了“Planck”术语的多重语义标签，使其成为研究物理学概念含义的理想资源。

使用方法

Wikipedia-Physics Corpus主要用于分析物理学中的概念含义，特别适用于自然语言处理任务中的词义消歧和语义标注。研究人员可以通过该数据集探索“Planck”术语在不同上下文中的语义变化，或利用其丰富的元数据进行文本分析和信息提取。数据集的结构化格式便于直接加载至机器学习模型中进行训练和评估，为物理学领域的语言学研究提供了重要支持。

背景与挑战

背景概述

Wikipedia-Physics Corpus数据集由柏林工业大学的Arno Simons开发，旨在通过分析物理学相关概念的含义，推动历史、哲学和科学社会学的研究。该数据集于2024年发布，包含从6,642篇关键物理学维基百科文章中提取的102,409个段落，并对885个段落中的1,186个“Planck”词汇进行了词义标注。该数据集的核心研究问题在于探索物理学概念在不同上下文中的语义变化，特别是“Planck”一词的多义性。其构建得到了欧盟的资助，项目编号为101044932。该数据集为物理学文本分析提供了丰富的语料资源，对自然语言处理、科学史和科学哲学领域的研究具有重要意义。

当前挑战

Wikipedia-Physics Corpus数据集在构建和应用过程中面临多重挑战。首先，数据集的标注任务需要对“Planck”一词的多义性进行精确区分，这要求标注者具备深厚的物理学知识背景，以确保标注的准确性和一致性。其次，数据集的构建依赖于维基百科文章的筛选和清理，尽管使用了PetScan工具进行自动化处理，但仍需人工干预以去除无关标记并保留公式等关键信息，这一过程耗时且复杂。此外，数据集的规模虽大，但其覆盖的物理学领域仍有限，可能无法全面反映物理学概念的多样性。最后，数据集的跨学科性质要求研究者在自然语言处理、科学史和科学哲学等多个领域具备交叉学科知识，这对研究者的能力提出了较高要求。

常用场景

经典使用场景

Wikipedia-Physics Corpus数据集在物理学领域的自然语言处理任务中展现了其独特的价值。该数据集通过从维基百科中提取的物理学相关段落，为研究者提供了丰富的文本资源，特别适用于词义消歧和上下文语义分析。其经典使用场景包括对“Planck”一词的多重含义进行标注和分析，帮助研究者深入理解物理学概念在不同语境下的具体含义。

实际应用

在实际应用中，Wikipedia-Physics Corpus数据集被广泛用于开发智能问答系统和知识图谱构建。通过对物理学文本的深入分析，该数据集能够帮助构建更加精准的知识库，提升智能系统在物理学领域的问答能力。此外，该数据集还可用于教育领域，为学生和教师提供丰富的物理学学习资源。

衍生相关工作

基于Wikipedia-Physics Corpus数据集，研究者们开展了一系列相关研究，特别是在词义消歧和上下文语义分析领域。例如，Simons (2024) 的研究利用该数据集探讨了“Planck”一词在不同语境下的含义，为物理学文本分析提供了新的方法论。此外，该数据集还激发了更多关于物理学概念语义分析的研究，推动了自然语言处理技术在科学领域的应用。

以上内容由遇见数据集搜集并总结生成