mySentence|自然语言处理数据集|缅甸语资源数据集
收藏数据集概述
数据集名称
mySentence
数据集描述
mySentence是一个用于缅甸语句子分割的语料库和模型集合。该数据集旨在帮助机器识别缅甸语中的句子结束,特别是在非正式语言使用中,这对于自动语音识别、语音合成和聊天机器人等应用至关重要。
数据集内容
-
语料库信息:
- 数据来源包括myPOS ver3.0、Covid-19 Q&A、Shared By Louis Augustine Page、Maung Zis Tales Page、Wikipedia等。
- 总句子数为47,127,总段落数为8,465。
-
词分割:
- 使用myWord工具进行词分割,并手动检查结果。
- 应用了Ye Kyaw Thu等人在myPOS语料库中提出的词分割规则。
-
语料库标注:
- 将语料库中的词序列标注为带有B(开始)、O(其他)、N(下一个)和E(结束)标签的序列。
- 如果序列中出现两个以上的/E标签,则被视为段落。
-
数据准备:
- 准备了两类数据:仅包含句子的数据和包含句子+段落的数据。
- 数据被分割为训练、开发和测试集。
数据集版本
- 版本信息:
- 版本1.0
- 发布日期未在README中明确指出。
许可证信息
- 许可证:
- 使用Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)许可证。
数据集格式
-
CRF格式:
- 为CRF++和NCRF++模型准备了CRF格式的数据。
- 数据包括训练、验证和测试集。
-
平行数据格式:
- 为神经机器翻译方法准备了平行数据格式。
- 数据包括训练、验证和测试集。
贡献者
- Ye Kyaw Thu (National Electronics and Computer Technology Center: NECTEC, Pathumthani, Thailand)
- Thura Aung (Language Understanding Laboratory: LU Lab., Myanmar)
出版物
- Thura Aung, Ye Kyaw Thu, Zar Zar Hlaing, "mySentence: Sentence Segmentation for Myanmar Language using Neural Machine Translation Approach"
- Ye Kyaw Thu, Thura Aung and Thepchai Supnithi, "Neural Sequence Labeling based Sentence Segmentation for Myanmar Language"

CAP-DATA
CAP-DATA数据集由长安大学交通学院的研究团队创建,包含11,727个交通事故视频,总计超过2.19百万帧。该数据集不仅标注了事故发生的时间窗口,还提供了详细的文本描述,包括事故前的实际情况、事故类别、事故原因和预防建议。数据集的创建旨在通过结合视觉和文本信息,提高交通事故预测的准确性和解释性,从而支持更安全的驾驶决策系统。
arXiv 收录
Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github 收录
Google Scholar
Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。
scholar.google.com 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
LibriSpeech
LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。
OpenDataLab 收录