ViMs
收藏github2024-04-07 更新2024-05-31 收录
下载链接:
https://github.com/CLC-HCMUS/ViMs-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
ViMs是一个高质量的越南语数据集,用于抽象多文档摘要。该数据集包含300个新闻文档集群,每个集群包含4到10篇新闻文章,涵盖世界新闻、国内新闻、商业、娱乐和体育五个领域。每个文档包含标题、纯文本内容、新闻来源、发布日期、作者、标签和标题摘要。数据集还包括由两位不同注释者创建的每个集群的两个摘要。
ViMs is a high-quality Vietnamese dataset designed for abstractive multi-document summarization. The dataset comprises 300 clusters of news documents, with each cluster containing between 4 to 10 news articles spanning five domains: world news, domestic news, business, entertainment, and sports. Each document includes a title, plain text content, news source, publication date, author, tags, and a title summary. Additionally, the dataset features two summaries per cluster, each created by different annotators.
创建时间:
2017-08-30
原始信息汇总
数据集概述
数据集名称
- ViMs Dataset
数据集目的
- 用于越南语抽象多文档摘要(Abstractive Multi-Document Summarization)的研究和评估。
数据集内容
- 原始数据:包含300个子目录,每个子目录代表一个新闻集群,每个集群包含4至10篇新闻文章。文章总数为1,945篇。
- 摘要数据:包含300个子目录,每个输入集群有两个由不同注释者手动创建的抽象摘要,共计600个摘要。
- S3_summary数据:包含300个子目录,包括600个“最佳句子选择”摘要,这些摘要是通过最佳句子选择步骤(步骤3)生成的。每个组中的句子通过空行分隔,最重要的句子标记为1,其他句子标记为0。
数据收集与处理
- 数据来源:数据从越南语版本的Google新闻中手动收集,仅限于开放供研究使用的来源。
- 文档类型:收集的文章属于五个类别:世界新闻、国内新闻、商业、娱乐和体育。
- 文档信息:每篇文章包含标题、纯文本内容、新闻来源、出版日期、作者、标签和标题摘要。
- 注释过程:每个集群的摘要由两位不同的注释者使用MDSWriter系统创建,注释者为越南语母语者,大多数了解自然语言处理。
引用信息
-
当使用此数据集时,请引用以下期刊文章:
@article{tran2020vims, title={ViMs: a high-quality Vietnamese dataset for abstractive multi-document summarization}, author={Tran, Nhi-Thao and Nghiem, Minh-Quoc and Nguyen, Nhung TH and Nguyen, Ngan Luu-Thuy and Van Chi, Nam and Dinh, Dien}, journal={Language Resources and Evaluation}, volume={54}, number={4}, pages={893--920}, year={2020}, publisher={Springer} }
搜集汇总
数据集介绍

构建方式
ViMs数据集的构建过程严谨且系统化,旨在为越南语多文档摘要任务提供高质量的资源。研究团队从越南语版本的Google新闻中手动提取了300个新闻集群,每个集群包含4至10篇新闻文章,涵盖世界新闻、国内新闻、商业、娱乐和体育五大类别。每篇文章包含标题、正文、新闻来源、发布日期、作者、标签和新闻摘要等信息。随后,通过MDSWriter系统,由两名越南语母语者分别对每个集群进行摘要标注,确保了数据集的多样性和准确性。
使用方法
ViMs数据集可广泛应用于越南语多文档摘要任务的研究和开发。用户可以通过原始文件夹获取新闻集群的详细信息,利用summary文件夹中的手工摘要进行模型训练和评估。S3_summary文件夹中的摘要则提供了句子级别的标注,适用于句子选择和摘要生成的研究。在使用数据集时,建议参考相关文献,并遵循数据集的使用规范,以确保研究的科学性和合法性。
背景与挑战
背景概述
ViMs数据集由越南胡志明市科学大学的Nghiem Quoc Minh等人于2016年创建,旨在为越南语的多文档摘要任务提供高质量的资源。该数据集包含了从越南语版本的Google新闻中提取的300个新闻集群,涵盖了世界新闻、国内新闻、商业、娱乐和体育等多个领域。每个集群包含4到10篇新闻文章,每篇文章包含标题、正文、来源、发布日期、作者、标签和摘要等信息。通过人工标注,每个集群生成了两个摘要,为越南语的抽象多文档摘要研究提供了宝贵的数据支持。
当前挑战
ViMs数据集在构建过程中面临了多个挑战。首先,由于版权问题,数据收集仅限于部分开放的新闻来源,这限制了数据集的多样性。其次,人工标注过程复杂,需要经过七个步骤的严格操作,且标注者需具备自然语言处理知识,确保摘要质量。此外,越南语作为一种资源相对较少的语言,其多文档摘要任务的研究仍处于起步阶段,缺乏成熟的模型和方法,这为后续的研究和应用带来了技术上的挑战。
常用场景
经典使用场景
ViMs数据集在越南语多文档摘要任务中展现了其经典应用场景。该数据集包含了300个新闻集群,每个集群包含4到10篇新闻文章,涵盖了世界新闻、国内新闻、商业、娱乐和体育等多个领域。通过这些集群,研究者和开发者可以训练和评估基于监督学习的机器学习模型,以实现高质量的越南语多文档摘要生成。
解决学术问题
ViMs数据集解决了越南语多文档摘要领域的关键学术问题。它为研究者提供了一个高质量的基准数据集,使得他们能够开发和验证新的摘要算法。此外,该数据集通过提供人工生成的摘要,帮助研究者评估模型的性能,从而推动了越南语自然语言处理领域的发展。
实际应用
在实际应用中,ViMs数据集被广泛用于新闻摘要生成、信息检索和内容推荐系统。例如,新闻机构可以利用该数据集训练模型,自动生成新闻摘要,提高信息传播效率。此外,该数据集还可用于开发智能助手,帮助用户快速获取多篇相关新闻的核心内容。
数据集最近研究
最新研究方向
近年来,ViMs数据集在越南语多文档摘要领域引起了广泛关注。该数据集不仅为越南语的自然语言处理研究提供了高质量的资源,还推动了抽象式多文档摘要技术的进步。研究者们利用ViMs数据集进行模型训练与评估,探索如何更有效地生成高质量的摘要,尤其是在处理多源、多主题的新闻文档时。此外,ViMs数据集的引入也为跨语言摘要技术的发展提供了新的思路,尤其是在东南亚语言处理领域,其影响力逐渐扩大。
以上内容由遇见数据集搜集并总结生成



