five

mySentence|自然语言处理数据集|缅甸语资源数据集

收藏
github2024-02-10 更新2024-05-31 收录
自然语言处理
缅甸语资源
下载链接:
https://github.com/ThuraAung1601/mySentence-v1
下载链接
链接失效反馈
资源简介:
mySentence是一个专注于缅甸语句子分割的数据集,包含了用于构建句子分割语料库的缅甸语句子和段落资源。数据集通过标记每个句子和段落的开始到结束的令牌,来帮助识别句子的结束,这对于自动语音识别、语音合成和聊天机器人等应用至关重要。

mySentence is a dataset focused on Burmese sentence segmentation, containing resources of Burmese sentences and paragraphs for building a sentence segmentation corpus. The dataset aids in identifying the end of sentences by marking the tokens from the beginning to the end of each sentence and paragraph, which is crucial for applications such as automatic speech recognition, speech synthesis, and chatbots.
创建时间:
2023-04-02
原始信息汇总

数据集概述

数据集名称

mySentence

数据集描述

mySentence是一个用于缅甸语句子分割的语料库和模型集合。该数据集旨在帮助机器识别缅甸语中的句子结束,特别是在非正式语言使用中,这对于自动语音识别、语音合成和聊天机器人等应用至关重要。

数据集内容

  • 语料库信息

    • 数据来源包括myPOS ver3.0、Covid-19 Q&A、Shared By Louis Augustine Page、Maung Zis Tales Page、Wikipedia等。
    • 总句子数为47,127,总段落数为8,465。
  • 词分割

    • 使用myWord工具进行词分割,并手动检查结果。
    • 应用了Ye Kyaw Thu等人在myPOS语料库中提出的词分割规则。
  • 语料库标注

    • 将语料库中的词序列标注为带有B(开始)、O(其他)、N(下一个)和E(结束)标签的序列。
    • 如果序列中出现两个以上的/E标签,则被视为段落。
  • 数据准备

    • 准备了两类数据:仅包含句子的数据和包含句子+段落的数据。
    • 数据被分割为训练、开发和测试集。

数据集版本

  • 版本信息
    • 版本1.0
    • 发布日期未在README中明确指出。

许可证信息

  • 许可证
    • 使用Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)许可证。

数据集格式

  • CRF格式

    • 为CRF++和NCRF++模型准备了CRF格式的数据。
    • 数据包括训练、验证和测试集。
  • 平行数据格式

    • 为神经机器翻译方法准备了平行数据格式。
    • 数据包括训练、验证和测试集。

贡献者

  • Ye Kyaw Thu (National Electronics and Computer Technology Center: NECTEC, Pathumthani, Thailand)
  • Thura Aung (Language Understanding Laboratory: LU Lab., Myanmar)

出版物

  • Thura Aung, Ye Kyaw Thu, Zar Zar Hlaing, "mySentence: Sentence Segmentation for Myanmar Language using Neural Machine Translation Approach"
  • Ye Kyaw Thu, Thura Aung and Thepchai Supnithi, "Neural Sequence Labeling based Sentence Segmentation for Myanmar Language"
AI搜集汇总
数据集介绍
main_image_url
构建方式
mySentence数据集的构建过程基于缅甸语的句子分割任务,旨在将文本分割为独立的句子单元。数据来源包括myPOS ver3.0、Covid-19 Q&A、Facebook页面以及维基百科等,涵盖了47,127个句子和8,465个段落。通过myWord工具进行分词,并采用myPOS语料库中的分词规则进行手动校对。随后,对每个句子中的词进行标注,标记为B(开始)、O(其他)、N(下一个)和E(结束),以区分句子和段落的边界。最终,数据集被分为仅包含句子的数据和包含句子与段落的数据,并进一步划分为训练集、开发集和测试集。
特点
mySentence数据集的特点在于其专注于缅甸语的句子分割任务,涵盖了正式与非正式语言的使用场景。数据集中的每个词都被精确标注,帮助模型识别句子和段落的边界。此外,数据集提供了多种格式,包括CRF格式和并行数据格式,适用于不同的机器学习模型,如CRF++、NCRF++以及神经机器翻译方法。数据集的多样性和丰富的标注信息使其成为缅甸语自然语言处理研究的重要资源。
使用方法
mySentence数据集的使用方法灵活多样,适用于多种自然语言处理任务。用户可以通过加载训练集、开发集和测试集进行模型训练与评估。数据集提供了CRF格式和并行数据格式,便于直接应用于CRF++、NCRF++等序列标注模型,以及神经机器翻译方法。此外,用户可以根据需要选择仅包含句子的数据或包含句子与段落的数据,以满足不同研究需求。通过引用相关文献,用户可以在研究中合法使用该数据集,并为其贡献提供学术支持。
背景与挑战
背景概述
mySentence数据集由Ye Kyaw Thu和Thura Aung等研究人员于2023年创建,旨在解决缅甸语(Myanmar language)的句子分割问题。该数据集的核心研究问题在于如何有效地将缅甸语文本分割为独立的句子单元,尤其是在非正式语言使用场景下,缺乏明确的句子结束标记。数据集的应用领域包括自动语音识别(ASR)、语音合成(TTS)以及聊天机器人等,这些应用均依赖于准确的句子分割以提升性能。mySentence数据集通过标注每个句子的起始和结束位置,为缅甸语的自然语言处理任务提供了重要的资源支持。
当前挑战
mySentence数据集在构建过程中面临多重挑战。首先,缅甸语的非正式语言使用缺乏明确的句子结束标记,这使得机器自动识别句子边界变得尤为困难。其次,缅甸语的词汇分割规则较为模糊,空格仅用于短语分割,而非单词分割,这增加了数据预处理和标注的复杂性。此外,数据集的构建依赖于多种来源的文本数据,包括社交媒体、维基百科和问答平台等,这些数据的质量和一致性难以保证。最后,尽管采用了神经网络和条件随机场(CRF)等先进技术进行句子分割,但如何进一步提升模型的准确性和泛化能力仍是亟待解决的问题。
常用场景
经典使用场景
mySentence数据集在缅甸语句子分割任务中展现了其经典应用场景。该数据集通过标注句子和段落的起始与结束位置,为机器提供了明确的句子边界信息。这种标注方式尤其适用于处理缅甸语中正式与非正式语言混合的文本,帮助机器识别句子结束的标志,从而提升自动语音识别(ASR)、语音合成(TTS)以及聊天机器人等应用的性能。
实际应用
在实际应用中,mySentence数据集被广泛用于缅甸语的自然语言处理任务。例如,在自动语音识别系统中,该数据集帮助机器更准确地识别句子边界,从而提升语音转文字的准确性。此外,在语音合成和聊天机器人开发中,该数据集也为生成连贯的缅甸语文本提供了重要支持,显著改善了用户体验。
衍生相关工作
mySentence数据集衍生了一系列经典研究工作。例如,基于该数据集,研究者提出了基于神经机器翻译的句子分割方法,并在多个国际会议上发表了相关论文。此外,该数据集还被用于开发缅甸语词分割工具myWord,进一步推动了缅甸语自然语言处理技术的发展。这些工作不仅丰富了缅甸语处理的研究成果,也为其他低资源语言的处理提供了借鉴。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CAP-DATA

CAP-DATA数据集由长安大学交通学院的研究团队创建,包含11,727个交通事故视频,总计超过2.19百万帧。该数据集不仅标注了事故发生的时间窗口,还提供了详细的文本描述,包括事故前的实际情况、事故类别、事故原因和预防建议。数据集的创建旨在通过结合视觉和文本信息,提高交通事故预测的准确性和解释性,从而支持更安全的驾驶决策系统。

arXiv 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。

OpenDataLab 收录