mySentence Corpus|缅甸语数据集|句子分割数据集

github2023-07-30 更新2024-05-31 收录

缅甸语

句子分割

下载链接：

https://github.com/ye-kyaw-thu/mySentence

下载链接

链接失效反馈

资源简介：

mySentence Corpus是一个用于缅甸语句子分割的语料库，包含了从多个来源收集的句子数据，并进行了详细的标注和处理，以支持机器学习模型在自动语音识别、语音合成等应用中的句子边界识别。

The mySentence Corpus is a dataset designed for sentence segmentation in the Burmese language. It comprises sentence data collected from various sources, meticulously annotated and processed to facilitate the identification of sentence boundaries in applications such as automatic speech recognition and speech synthesis by machine learning models.

创建时间：

2022-12-14

原始信息汇总

数据集概述

数据集名称

mySentence

数据集目的

用于缅甸语（Myanmar language）句子分割的语料库和模型。

数据集内容

语料库信息
- 数据来源包括myPOS ver3.0、Covid-19 Q&A、Shared By Louis Augustine Page、Maung Zis Tales Page、Wikipedia等。
- 总计包含47,127个句子，8,465个段落。
词分割
- 使用myWord工具进行词分割，并手动审核结果。
语料库标注
- 对语料库中的每个词进行标注，使用B（Begin）、O（Other）、N（Next）和E（End）四种标签。
- 若序列中包含两个以上的E标签，则视为段落。
数据准备
- 准备了两类数据：仅包含句子的数据和同时包含句子与段落的数据。
- 数据被分割为训练、开发和测试集。

数据集版本

版本 1.0
发布日期：2023年7月30日

数据集格式

提供了CRF格式和并行格式的数据，用于不同的实验和模型训练。

许可证信息

Creative Commons Attribution-NonCommercial-Share Alike 4.0 International (CC BY-NC-SA 4.0)

贡献者

Ye Kyaw Thu
Thura Aung

相关出版物

Ye Kyaw Thu, Thura Aung, Thepchai Supnithi, "Neural Sequence Labeling based Sentence Segmentation for Myanmar Language", the 12th Conference on Information Technology and its applications (CITA 2023).

AI搜集汇总

数据集介绍

构建方式

mySentence Corpus的构建过程基于多种数据资源的整合与处理。首先，从多个来源收集了缅甸语的句子和段落，包括myPOS ver3.0、Covid-19 Q&A、社交媒体页面以及维基百科等。随后，使用myWord工具对数据进行分词处理，并手动审查分词结果以确保准确性。接着，对分词后的数据进行标注，每个句子中的词被标记为B（开始）、O（其他）、N（下一个）或E（结束），以明确句子边界。最后，将数据分为仅包含句子的数据集和包含句子与段落的数据集，并进一步划分为训练集、开发集和测试集。

特点

mySentence Corpus的特点在于其专注于缅甸语句子分割任务，涵盖了正式与非正式语言的使用场景。数据集不仅包含大量句子和段落，还通过详细的标注方式（B、O、N、E标签）为每个句子提供了明确的边界信息。此外，数据集提供了多种格式的数据，包括CRF格式和并行格式，便于不同模型（如CRF++和NCRF++）的实验与应用。这种多样化的数据格式和丰富的标注信息为缅甸语句子分割研究提供了坚实的基础。

使用方法

mySentence Corpus的使用方法灵活多样，适用于多种自然语言处理任务。用户可以直接使用提供的训练集、开发集和测试集进行模型训练与评估。数据集支持CRF++和NCRF++等模型的实验，用户可以通过加载CRF格式的数据进行序列标注任务。此外，并行格式的数据为神经机器翻译方法提供了便利。用户还可以根据研究需求，选择仅包含句子的数据集或包含句子与段落的数据集进行实验。通过引用相关文献，用户可以在研究中充分利用该数据集，推动缅甸语句子分割技术的发展。

背景与挑战

背景概述

mySentence Corpus是由Ye Kyaw Thu和Thura Aung等研究人员于2023年7月发布的一个专注于缅甸语句子分割的数据集。该数据集旨在解决缅甸语在自然语言处理中的句子边界识别问题，特别是在自动语音识别（ASR）、语音合成（TTS）和聊天机器人等应用中。缅甸语的句子结构在正式和非正式语境中存在显著差异，尤其是在非正式语境中，句子边界往往不遵循严格的语法规则，这为机器处理带来了挑战。mySentence Corpus通过标注句子中的每个词元（token），提供了丰富的训练和测试数据，推动了缅甸语自然语言处理技术的发展。

当前挑战

mySentence Corpus面临的挑战主要体现在两个方面。首先，缅甸语的句子边界识别在非正式语境中尤为复杂，因为非正式语言缺乏明确的句子结束标记，导致机器难以准确分割句子。其次，数据集的构建过程中，研究人员需要处理缅甸语中词与词之间缺乏明确空格分隔的问题，这增加了词分割和句子标注的难度。尽管使用了myWord等工具进行自动分割，但仍需大量人工校对和标注，以确保数据的准确性和一致性。这些挑战不仅影响了数据集的构建效率，也对后续的模型训练和评估提出了更高的要求。

常用场景

经典使用场景

mySentence Corpus 在缅甸语的自然语言处理研究中具有重要地位，尤其在句子分割任务中表现突出。该数据集通过标注句子和段落的边界，为缅甸语的自动句子分割提供了高质量的标注数据。研究人员可以利用该数据集训练和评估句子分割模型，特别是在处理缅甸语这种缺乏明确句子边界标志的语言时，该数据集为模型提供了丰富的上下文信息。

实际应用

mySentence Corpus 在实际应用中具有广泛价值。例如，在自动语音识别系统中，准确的句子分割可以显著提升语音识别的效果；在文本转语音系统中，句子边界信息有助于生成更自然的语音输出。此外，该数据集还可用于开发缅甸语的聊天机器人，帮助其更好地理解用户输入并生成连贯的回复。

衍生相关工作

mySentence Corpus 的发布推动了缅甸语自然语言处理领域的研究进展。基于该数据集，研究人员开发了多种句子分割模型，如基于 NCRF++ 的序列标注模型和神经机器翻译模型。这些模型在缅甸语的句子分割任务中表现优异，相关研究成果已在多个国际会议和期刊上发表，进一步丰富了缅甸语自然语言处理的研究生态。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据，包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统，优化地铁运营和乘客体验。

www.kaggle.com 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。