mohanrj/MEN-Malaysian_English_News_Article_Dataset
收藏Hugging Face2024-03-27 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/mohanrj/MEN-Malaysian_English_News_Article_Dataset
下载链接
链接失效反馈官方服务:
资源简介:
马来西亚英语新闻(MEN)数据集包含200篇手动标注的新闻文章,旨在解决马来西亚英语在自然语言处理(NLP)任务中的挑战,特别是命名实体识别(NER)任务。该数据集通过使用spaCy NER工具进行微调,验证了其对提高马来西亚英语NER性能的有效性。数据集包含6,061个实体和3,268个关系实例,并通过专家裁决确保了标注质量。
马来西亚英语新闻(MEN)数据集包含200篇手动标注的新闻文章,旨在解决马来西亚英语在自然语言处理(NLP)任务中的挑战,特别是命名实体识别(NER)任务。该数据集通过使用spaCy NER工具进行微调,验证了其对提高马来西亚英语NER性能的有效性。数据集包含6,061个实体和3,268个关系实例,并通过专家裁决确保了标注质量。
提供机构:
mohanrj
原始信息汇总
数据集概述
数据集名称
马来西亚英语新闻(MEN)数据集
数据集目的
针对马来西亚英语的特定需求,构建一个包含实体和关系标注的数据集,以改善自然语言处理(NLP)任务,特别是命名实体识别(NER)在马来西亚英语中的表现。
数据集内容
- 包含200篇手动标注实体和关系的新闻文章。
- 数据集总计包含6,061个实体和3,268个关系实例。
数据集构建方法
- 数据采集:收集200篇马来西亚英语新闻文章。
- 标注方法:采用人工标注,并通过专家进行分歧裁决以确保标注质量。
- 质量验证:使用注释者间一致性进行质量验证。
数据集应用
- 通过微调spaCy NER工具,验证了专门针对马来西亚英语的数据集能显著提升NER性能。
- 数据集将有助于推动马来西亚英语在NLP领域的研究,特别是在NER和关系抽取(RE)方面。
数据集相关研究
- 相关研究论文已被LREC-COLING 2024会议接受,论文可在arXiv上获取,预印本编号为2402.14521。



