ie-datasets

github2023-10-10 更新2024-05-31 收录

下载链接：

https://github.com/buda-base/bonlp-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于藏文文本信息提取的训练数据，专注于通过电子书丰富化来获取高质量注释，以及低成本的注释者和数据管理员。数据集涵盖了多种类型的信息，如引用、术语定义等，这些信息在各个专业领域中都是最相关的。

This dataset comprises training data for Tibetan text information extraction, focusing on the enrichment of e-books to obtain high-quality annotations, as well as low-cost annotators and data administrators. The dataset encompasses various types of information, such as citations and term definitions, which are most relevant across various professional fields.

创建时间：

2019-01-03

原始信息汇总

数据集概述

数据集名称

ie-datasets

数据集内容

该数据集包含用于信息提取的藏文电子文本训练数据。

背景研究

研究团队调查了藏传佛教学者，了解他们在使用专业文献时寻找的信息类型。通过分析数据，确定了各领域专业文献中最相关的信息类型，并开始专注于标注跨领域最常见的信息，如“引文”和“术语定义”。

训练模型

ie-citations-sources - 引文 ལུང་། + 来源 ལུང་ཁུངས།

标注数据集

通用标注（临时标签）

引文 ལུང་། + 来源 ལུང་ཁུངས།; (G<text>), (H<text>)
- dudra
- grammar
定义 མཚན་ཉིད། + 定义的 མཚོན་བྱ། + 实例 མཚན་གཞི།; (A<text>), (B<text>), (C<text>)
枚举 + 枚举的 དབྱེ་གཞི། + དབྱེ་བ།; (D<text>), (E<text>)
- litghttag-training-NER-Enumeration-and-definition - འདིའི་ནང་མཚོན་བྱ་མཚན་ཉིད་དང་དབྱེ་གཞི་དབྱེ་བ་མཉམ་དུ་འདུག
- རྣམ་གྲངས། enumeration
- dudra
- grammar
词形态学 + 词 སྒྲ་བཤད། + སྒྲ་གཞི།; (F<text>), (L<text>)

语法文本标注（临时标签）

一致性 1 + 一致性 2 འཇུག་ཡུལ། + འཇུག་བྱ།; (P<text>), (P*<text>)
- grammar
非法一致性 1 + 非法一致性 2 མི་འཇུག་སའི་ཡུལ། + མི་འཇུག་ས།; (S<text>), (S*<text>)

编辑标注（临时标签）

子标题 ཡིག་ཆུང་།; (y<text>)
卷标题 ཡིག་ཆའི་མཚན་བྱང་།; (k2<text>)
文本标题 ཡིག་ཆའི་མཚན་བྱང་།; (k1<text>)
章节标题 ཡིག་ཆའི་མཚན་བྱང་།; (k3<text>)
注释标记 བསྡུར་མཆན་ཨང་།; <text>#<text> # 用于 OCR 训练
潜在错误 ཡིག་ནོར་དོགས་གཞི།; [<error>,<correction>]

NER 标注（临时标签）

人物 མི་སྣ།;
作者 མཛད་པ་པོ།; (au<text>)
地点 ས་གནས།;
日期 དུས་ཚིགས།;

词分割

POS 标记

搜集汇总

数据集介绍

构建方式

ie-datasets数据集的构建基于对藏文电子文本的信息抽取需求，研究团队通过调查超过100位藏学和佛学领域的专家，确定了在专业文献中最常被搜索的信息类型。基于这些调查结果，团队决定专注于标注跨领域的关键信息，如引用、术语定义等。数据集的构建过程中，团队通过电子书丰富化的方式获取高质量的标注数据，并利用低成本的数据标注员和数据管理者进行数据整理。

特点

ie-datasets数据集的特点在于其专注于藏文电子文本的信息抽取任务，涵盖了多个领域的关键信息类型，如引用、术语定义、枚举等。数据集中的标注信息通过临时标签进行标记，便于后续的信息抽取模型训练。此外，数据集还包含了丰富的语法文本标注和编辑标注，能够支持复杂的文本分析和信息抽取任务。

使用方法

ie-datasets数据集的使用方法主要包括下载数据集文件并加载到相应的信息抽取模型中进行训练。用户可以根据具体的任务需求，选择不同的标注类型进行模型训练，如引用抽取、术语定义识别等。数据集中的临时标签设计使得用户能够灵活地调整标注格式，以适应不同的模型架构。此外，数据集还提供了详细的文件夹结构和标注示例，帮助用户快速理解和使用数据集。

背景与挑战

背景概述

ie-datasets 是一个专注于藏文电子文本信息抽取的训练数据集，由 OpenPecha 团队于2020年创建。该数据集的开发旨在支持藏文文献的自动化处理，特别是针对佛教和藏学研究领域的文本分析。通过对100多位藏学和佛学专家的调研，团队确定了文献中最常见的信息需求，如引用、术语定义和症状描述等。数据集的核心研究问题在于如何高效地从复杂的藏文文本中提取关键信息，以支持学术研究和文献管理。ie-datasets 的发布为藏文自然语言处理领域提供了重要的数据资源，推动了藏文信息抽取技术的发展。

当前挑战

ie-datasets 面临的挑战主要体现在两个方面。首先，藏文文本的复杂性和多样性使得信息抽取任务极具挑战性，尤其是在处理多义词、复合词和语法结构时，模型需要具备高度的语言理解能力。其次，数据集的构建过程中，团队遇到了高质量标注数据获取的困难。由于藏文文献的特殊性，标注工作需要依赖领域专家，导致标注成本高且效率较低。此外，藏文文本的数字化程度较低，原始数据的获取和预处理也增加了数据集构建的难度。这些挑战限制了数据集的规模和多样性，同时也对模型的训练和性能提出了更高的要求。

常用场景

经典使用场景

ie-datasets数据集主要用于藏文文献的信息抽取任务，特别是在藏文电子文本中提取关键信息。该数据集通过标注文献中的引用、定义、枚举、词法解释等内容，为藏文自然语言处理提供了丰富的训练数据。其经典使用场景包括藏文文献的自动标注、信息检索以及知识图谱构建等领域。

衍生相关工作

ie-datasets的发布催生了一系列与藏文信息抽取相关的研究工作。例如，基于该数据集开发的ie-citations-sources模型能够自动识别藏文文献中的引用和来源信息。此外，该数据集还推动了藏文词法分析、命名实体识别等任务的研究，为藏文自然语言处理领域的进一步发展奠定了基础。

数据集最近研究