DataNER

github2024-03-20 更新2024-05-31 收录

下载链接：

https://github.com/LucasPages/dataner_creation

下载链接

链接失效反馈

官方服务：

资源简介：

DataNER是一个使用Wikipedia和WikiData进行命名实体识别（NER）标注的语料库。

DataNER is a corpus annotated for Named Entity Recognition (NER) using Wikipedia and WikiData.

创建时间：

2022-05-10

原始信息汇总

DataNER 数据集概述

数据集描述

来源与用途：DataNER 数据集是通过处理 Wikipedia xml 和 WikiData json 数据构建的，用于命名实体识别（NER）任务。该数据集是作为蒙特利尔大学法语硕士论文的一部分开发的。
质量评估：尽管论文结果显示该数据集的质量相比其他类似数据集较低，但代码本身仍被认为是对该方法的有趣贡献。

数据集构建方法

数据源：使用 Wikipedia 和 WikiData 的 dump 文件。
处理流程：
- 下载并配置 WikiExtractor 和 NECKAr 工具。
- 添加 WikiData dump 路径至 NECKAr.cfg 文件。
- 运行 process_wikidata_dump.sh 和 process_wikipedia_dump.sh 脚本处理数据。
- 可选地运行 augment_mentions.py 脚本以增加数据集中的命名实体。
- 运行 extract_collection.py 脚本生成最终的标注数据集。

注意事项

数据集构建过程可能在一台24线程的计算机上进行，常规计算机上可能运行缓慢。建议在资源有限的情况下使用 Wikipedia 的子集以生成数据集。

搜集汇总

数据集介绍

构建方式

DataNER数据集的构建过程基于Wikipedia和WikiData的原始数据，通过处理Wikipedia的XML转储文件和WikiData的JSON转储文件，生成带有命名实体标注的语料库。该数据集是蒙特利尔大学一项法语硕士论文的研究成果，尽管研究结果表明该方法的语料库质量相较于其他类似语料库稍逊一筹，但其代码仍为相关领域的研究提供了有价值的参考。

特点

DataNER数据集的特点在于其结合了Wikipedia和WikiData两大开放知识库的资源，能够生成包含丰富命名实体信息的语料库。尽管其质量未达到最优，但其构建方法为研究命名实体识别（NER）任务提供了一种新的技术路径。此外，数据集支持通过脚本扩展实体提及，进一步增强了语料库的多样性和实用性。

使用方法

使用DataNER数据集时，首先需下载Wikipedia和WikiData的转储文件，并配置相关工具如WikiExtractor和NECKAr。随后，通过运行一系列脚本处理转储文件，最终生成语料库。用户还可选择运行扩展脚本以增加命名实体的数量。需要注意的是，该过程对计算资源要求较高，建议在高性能计算机上运行，或使用Wikipedia的子集以优化处理时间。

背景与挑战

背景概述

DataNER数据集是蒙特利尔大学（Université de Montréal）一名法语硕士生在研究过程中构建的命名实体识别（NER）语料库。该数据集基于维基百科的XML转储文件和维基数据的JSON转储文件，旨在通过自动化处理生成一个包含命名实体标注的语料库。尽管研究结果表明，与其他类似语料库相比，DataNER的质量稍逊一筹，但其构建方法仍为相关领域提供了新的研究思路和技术参考。该数据集的发布不仅展示了从大规模开放数据源中提取命名实体的技术路径，也为后续研究提供了宝贵的实验基础。

当前挑战

DataNER数据集在构建过程中面临多重挑战。首先，命名实体识别本身是一个复杂的自然语言处理任务，尤其是在处理维基百科和维基数据这类异构数据源时，实体类型多样性和数据格式的复杂性增加了标注的难度。其次，数据集的构建依赖于大规模数据处理，计算资源消耗巨大，尤其是在普通计算设备上运行时，效率显著降低。此外，尽管数据集构建方法具有一定的创新性，但其生成语料的质量仍未能达到预期，表明在数据清洗、实体匹配和标注一致性等方面仍需进一步优化。这些挑战不仅反映了命名实体识别领域的共性难题，也为未来研究提供了改进方向。

常用场景

经典使用场景

DataNER数据集在自然语言处理领域中被广泛应用于命名实体识别（NER）任务。通过结合Wikipedia和WikiData的数据，该数据集为研究者提供了一个丰富的语料库，用于训练和评估NER模型。其独特的标注方式使得模型能够更好地识别文本中的实体，如人名、地名、组织名等。

衍生相关工作

DataNER数据集的开发基于Wikiextractor和NECKAr工具，这些工具在命名实体识别和文本处理领域具有重要影响。其衍生工作包括改进的NER模型和更高效的文本处理算法，这些工作进一步推动了NER技术的发展。此外，该数据集还激发了更多关于大规模文本数据标注和处理的研究，为相关领域提供了新的研究方向。

数据集最近研究