ANCHOLIK-NER

Name: ANCHOLIK-NER
Creator: 阿萨努拉大学科学与技术学院计算机科学与工程系
Published: 2025-02-17 00:59:10
License: 暂无描述

arXiv2025-02-17 更新2025-02-19 收录

下载链接：

https://mendeley.com/data/10.17632/gbkszkt8z3.1

下载链接

链接失效反馈

官方服务：

资源简介：

ANCHOLIK-NER是一个面向孟加拉区域方言命名词义识别的语言多样性格式数据集，覆盖了锡尔赫特、吉大港和巴里萨尔三个地区的方言变化。该数据集由约10443个句子组成，每个地区约3481个句子，数据来源于两个公开可用的数据集以及通过网页抓取的各种在线报纸和文章。数据集使用BIO标注方案进行高质量的专业标注，分为各自独立的子集，并以CSV格式提供，每个条目包含文本数据和识别的命名实体及其相应注释。

ANCHOLIK-NER is a linguistically diverse formatted dataset for named entity recognition (NER) targeting regional Bengali dialects, covering dialectal variations across three regions: Sylhet, Chittagong, and Barisal. Comprising approximately 10,443 sentences in total, with roughly 3,481 sentences per region, the dataset is sourced from two publicly available datasets and various online newspapers and articles collected via web scraping. The dataset employs the BIO annotation scheme for high-quality professional annotation, is divided into independent subsets, and is provided in CSV format, where each entry contains the text data, recognized named entities and their corresponding annotations.

提供机构：

阿萨努拉大学科学与技术学院计算机科学与工程系

创建时间：

2025-02-17

搜集汇总

数据集介绍

构建方式

ANCHOLIK-NER数据集的构建汇集了来自两个公开可用数据集的文本以及通过网络爬虫从各种在线报纸、文章中收集的文本。数据集的构建采用了BIO标注方案，由精通区域方言的专业标注人员执行标注过程，确保了高质量实体识别。数据集分为三个子集，分别对应三个地区，并以CSV格式保存，每个条目包含文本数据以及标识的命名实体及其相应的注释。

特点

该数据集在语言上的多样性使其在命名实体识别领域具有独特性，覆盖了孟加拉国的 Sylhet、Chittagong 和 Barishal 等地区的方言变化。数据集包含大约10,443个句子，每个地区约3,481个句子，命名实体分为十大类别，包括人名、地点、组织、食物等。数据来源的多样性和专业的标注确保了数据集的实用性和准确性。

使用方法

ANCHOLIK-NER数据集可供自然语言处理研究者和开发者使用，特别是在构建和评估针对孟加拉语方言变化的命名实体识别模型时。用户可以通过CSV格式轻松访问数据，并将其集成到不同的命名实体识别框架和机器学习模型中，以增强模型对区域语言的理解和识别能力。

背景与挑战

背景概述

ANCHOLIK-NER，作为一项专注于孟加拉区域命名实体识别的语料库，其构建旨在填补现有命名实体识别数据集在孟加拉区域方言方面的空白。该数据集由Bidyarthi Paul等研究人员于2025年开发，隶属于孟加拉国的Ahsanullah大学计算机科学与工程学院。ANCHOLIK-NER涵盖了 Sylhet、Chittagong 和 Barishal三个地区的方言差异，共包含10,443个句子，为每个区域提供了3,481个句子。数据集的构建基于两个公开可得的数据集及网络新闻和文章的抓取，并采用BIO标注方案，由专业标注员完成，以确保高质量的实体识别。该数据集对于促进孟加拉区域方言处理及低资源语言的自然语言处理应用具有重要的价值。

当前挑战

在构建ANCHOLIK-NER数据集的过程中，研究人员面临了多项挑战。首先，由于孟加拉方言的多样性和复杂性，确保覆盖不同区域的方言表达是一项艰巨的任务。其次，缺乏足够的方言标注资源和工具，使得标注过程困难重重。此外，构建过程中还需克服如何平衡标准孟加拉语与方言之间的差异，以及如何有效整合来自不同来源的数据等挑战。在所解决的领域问题方面，ANCHOLIK-NER旨在提升对孟加拉区域方言中命名实体的识别能力，这对于提升低资源语言的实体识别模型性能至关重要。

常用场景

经典使用场景

ANCHOLIK-NER数据集作为命名实体识别的研究基准，其经典使用场景在于为机器学习模型提供训练和评估的资源。该数据集涵盖了孟加拉国的 Sylhet、Chittagong 和 Barishal 地区的方言，为研究区域命名实体的识别与分类提供了丰富而具体的地域语言样本。在学术研究中，该数据集被广泛用于训练深度学习模型，以识别和提取文本中的特定命名实体，如人名、地名、组织名等，从而推动了对孟加拉方言语言处理和低资源语言自然语言处理技术的研究。

衍生相关工作

ANCHOLIK-NER数据集的创建促进了后续一系列相关工作的开展。研究者基于该数据集开发了多种命名实体识别模型，并探索了跨语言学习和迁移学习在低资源语言处理中的应用。这些衍生工作进一步扩展了ANCHOLIK-NER数据集的用途，推动了孟加拉语及低资源语言NLP领域的进步。

数据集最近研究