ViMs

github2024-04-07 更新2024-05-31 收录

下载链接：

https://github.com/CLC-HCMUS/ViMs-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

ViMs是一个高质量的越南语数据集，用于抽象多文档摘要。该数据集包含300个新闻文档集群，每个集群包含4到10篇新闻文章，涵盖世界新闻、国内新闻、商业、娱乐和体育五个领域。每个文档包含标题、纯文本内容、新闻来源、发布日期、作者、标签和标题摘要。数据集还包括由两位不同注释者创建的每个集群的两个摘要。

ViMs is a high-quality Vietnamese dataset designed for abstractive multi-document summarization. The dataset comprises 300 clusters of news documents, with each cluster containing between 4 to 10 news articles spanning five domains: world news, domestic news, business, entertainment, and sports. Each document includes a title, plain text content, news source, publication date, author, tags, and a title summary. Additionally, the dataset features two summaries per cluster, each created by different annotators.

创建时间：

2017-08-30

原始信息汇总

数据集概述

数据集名称

ViMs Dataset

数据集目的

用于越南语抽象多文档摘要（Abstractive Multi-Document Summarization）的研究和评估。

数据集内容

原始数据：包含300个子目录，每个子目录代表一个新闻集群，每个集群包含4至10篇新闻文章。文章总数为1,945篇。
摘要数据：包含300个子目录，每个输入集群有两个由不同注释者手动创建的抽象摘要，共计600个摘要。
S3_summary数据：包含300个子目录，包括600个“最佳句子选择”摘要，这些摘要是通过最佳句子选择步骤（步骤3）生成的。每个组中的句子通过空行分隔，最重要的句子标记为1，其他句子标记为0。

数据收集与处理

数据来源：数据从越南语版本的Google新闻中手动收集，仅限于开放供研究使用的来源。
文档类型：收集的文章属于五个类别：世界新闻、国内新闻、商业、娱乐和体育。
文档信息：每篇文章包含标题、纯文本内容、新闻来源、出版日期、作者、标签和标题摘要。
注释过程：每个集群的摘要由两位不同的注释者使用MDSWriter系统创建，注释者为越南语母语者，大多数了解自然语言处理。

引用信息

当使用此数据集时，请引用以下期刊文章：

@article{tran2020vims, title={ViMs: a high-quality Vietnamese dataset for abstractive multi-document summarization}, author={Tran, Nhi-Thao and Nghiem, Minh-Quoc and Nguyen, Nhung TH and Nguyen, Ngan Luu-Thuy and Van Chi, Nam and Dinh, Dien}, journal={Language Resources and Evaluation}, volume={54}, number={4}, pages={893--920}, year={2020}, publisher={Springer} }

搜集汇总

数据集介绍

构建方式

ViMs数据集的构建过程严谨且系统化，旨在为越南语多文档摘要任务提供高质量的资源。研究团队从越南语版本的Google新闻中手动提取了300个新闻集群，每个集群包含4至10篇新闻文章，涵盖世界新闻、国内新闻、商业、娱乐和体育五大类别。每篇文章包含标题、正文、新闻来源、发布日期、作者、标签和新闻摘要等信息。随后，通过MDSWriter系统，由两名越南语母语者分别对每个集群进行摘要标注，确保了数据集的多样性和准确性。

使用方法

ViMs数据集可广泛应用于越南语多文档摘要任务的研究和开发。用户可以通过原始文件夹获取新闻集群的详细信息，利用summary文件夹中的手工摘要进行模型训练和评估。S3_summary文件夹中的摘要则提供了句子级别的标注，适用于句子选择和摘要生成的研究。在使用数据集时，建议参考相关文献，并遵循数据集的使用规范，以确保研究的科学性和合法性。

背景与挑战

背景概述

ViMs数据集由越南胡志明市科学大学的Nghiem Quoc Minh等人于2016年创建，旨在为越南语的多文档摘要任务提供高质量的资源。该数据集包含了从越南语版本的Google新闻中提取的300个新闻集群，涵盖了世界新闻、国内新闻、商业、娱乐和体育等多个领域。每个集群包含4到10篇新闻文章，每篇文章包含标题、正文、来源、发布日期、作者、标签和摘要等信息。通过人工标注，每个集群生成了两个摘要，为越南语的抽象多文档摘要研究提供了宝贵的数据支持。

当前挑战

ViMs数据集在构建过程中面临了多个挑战。首先，由于版权问题，数据收集仅限于部分开放的新闻来源，这限制了数据集的多样性。其次，人工标注过程复杂，需要经过七个步骤的严格操作，且标注者需具备自然语言处理知识，确保摘要质量。此外，越南语作为一种资源相对较少的语言，其多文档摘要任务的研究仍处于起步阶段，缺乏成熟的模型和方法，这为后续的研究和应用带来了技术上的挑战。

常用场景

经典使用场景

ViMs数据集在越南语多文档摘要任务中展现了其经典应用场景。该数据集包含了300个新闻集群，每个集群包含4到10篇新闻文章，涵盖了世界新闻、国内新闻、商业、娱乐和体育等多个领域。通过这些集群，研究者和开发者可以训练和评估基于监督学习的机器学习模型，以实现高质量的越南语多文档摘要生成。

解决学术问题

ViMs数据集解决了越南语多文档摘要领域的关键学术问题。它为研究者提供了一个高质量的基准数据集，使得他们能够开发和验证新的摘要算法。此外，该数据集通过提供人工生成的摘要，帮助研究者评估模型的性能，从而推动了越南语自然语言处理领域的发展。

实际应用

在实际应用中，ViMs数据集被广泛用于新闻摘要生成、信息检索和内容推荐系统。例如，新闻机构可以利用该数据集训练模型，自动生成新闻摘要，提高信息传播效率。此外，该数据集还可用于开发智能助手，帮助用户快速获取多篇相关新闻的核心内容。

数据集最近研究