five

ViSP

收藏
arXiv2025-02-11 更新2025-02-13 收录
下载链接:
https://github.com/ngwgsang/ViSP
下载链接
链接失效反馈
官方服务:
资源简介:
ViSP数据集是越南信息技术大学和越南国家大学共同创建的,首个大规模越南语句子改写数据集。该数据集包括超过120万对越南语句子,涵盖多个领域。通过自动生成和人工评估的混合方法构建,确保了数据集的高质量和准确性。ViSP数据集旨在为越南语句子改写任务提供有价值的基础,推动相关研究和应用的发展。

The ViSP dataset, co-developed by Vietnam University of Information Technology and Vietnam National University, is the first large-scale Vietnamese sentence paraphrasing dataset. This dataset contains over 1.2 million Vietnamese sentence pairs spanning multiple domains. It was constructed using a hybrid approach integrating automatic generation and manual evaluation, ensuring the high quality and accuracy of the dataset. The ViSP dataset aims to provide a valuable foundational resource for Vietnamese sentence paraphrasing tasks, and advance the development of relevant research and applications.
提供机构:
越南信息技术大学,胡志明市,越南;越南国家大学,胡志明市,越南
创建时间:
2025-02-11
搜集汇总
数据集介绍
main_image_url
构建方式
ViSP数据集的构建采用了混合方法,结合自动生成释义和人工评估,以确保高质量。首先,从公开资源中收集了包含原始越南文档的句子,包括UIT-ViQuAD、UIT-ViNewsQA、ALQAC和ViNLI等数据集。然后,通过underthesea工具提取句子,并使用Gemini模型对句子进行主题分类。接着,将句子分为生成组和评估组,评估组手动生成释义并进行交叉验证,生成组则与AI组进行手动释义的对比。最后,使用表现最好的prompt生成释义,并经过人工验证以确保质量。
特点
ViSP数据集具有以下特点:1. 大规模:包含超过120万个原始-释义对,涵盖多个领域;2. 高质量:每个原始句子都伴随着多个释义,均由人工验证;3. 多样性:释义在词汇和结构上都有所变化,保证了多样性;4. 主题广泛:数据集覆盖了健康、社会、生活方式、科学、文化、计算机、法律、体育、商业等多个主题。
使用方法
ViSP数据集可用于评估和基准化释义生成模型。用户可以使用BLEU、ROUGE、BERTScore等指标评估释义的质量,同时可以使用Distinct-N、Entropy-N、Jaccard等指标评估释义的多样性。此外,用户还可以根据句子长度和主题进行评估,以了解模型在不同情况下的表现。
背景与挑战
背景概述
在自然语言处理(NLP)领域,句子释义任务对于提高机器翻译、问答系统、信息检索以及聊天机器人等应用的效果至关重要。然而,对于低资源语言,如越南语,高质量的句子释义数据集的缺乏限制了相关研究的发展。为了填补这一空白,越南信息科技大学的研究人员创建了ViSP数据集,这是一个包含120万对原始句子和释义的大型越南语句子释义数据集。该数据集的构建采用了自动释义生成和人工评估相结合的混合方法,确保了数据的高质量和准确性。ViSP数据集的创建不仅为越南语句子释义任务提供了宝贵的资源,也为NLP领域的研究和应用开辟了新的方向。
当前挑战
尽管ViSP数据集为越南语句子释义任务提供了重要资源,但在构建和使用该数据集时仍面临一些挑战。首先,释义生成任务的挑战在于如何生成与原始句子语义等价但表达方式不同的句子。这需要模型能够理解句子的语义结构和词汇含义,并在此基础上进行有效的词汇和句法变化。其次,在构建数据集过程中,确保释义质量是一个重要挑战。为了克服这一挑战,研究人员采用了人工评估的方法,对生成的释义进行筛选和验证。此外,数据集的多样性也是一个需要关注的挑战。为了确保数据集的多样性,研究人员采用了多种数据来源,并使用了不同的模型和算法来生成释义。最后,如何有效地利用ViSP数据集来训练和评估越南语句子释义模型也是一个挑战。为了应对这一挑战,研究人员对多种模型和算法进行了实验和比较,以确定最优的模型和算法。
常用场景
经典使用场景
ViSP数据集主要应用于越南语句释义任务,该任务在自然语言处理领域具有重要意义。释义任务可以生成更多的数据,同时保留原始句子的主要意义。在问答系统、信息检索、机器翻译和聊天机器人等领域,释义技术可以提供更全面、更细致的响应,帮助搜索引擎找到相关文档,提高翻译的准确性,使聊天机器人更灵活、自然地响应用户的查询。
衍生相关工作
ViSP数据集的创建为越南语句释义任务提供了有价值的基础,有助于促进越南NLP研究的发展。该数据集的发布可能会激发更多关于越南语句释义的研究,并推动相关技术的进步。同时,ViSP数据集的创建也可能为其他低资源语言的释义任务提供参考,促进全球NLP研究的发展。
数据集最近研究
最新研究方向
ViSP数据集的发布标志着越南语句子释义研究的一个重要进展。该数据集涵盖了1.2M的原始-释义对,跨越了多个领域,为自然语言处理领域的研究提供了宝贵的资源。ViSP数据集的构建采用了混合方法,结合了自动释义生成和人工评估,以确保高质量。研究团队使用了包括BART和T5在内的基线模型,以及大型语言模型(LLMs),如GPT-4o、Gemini1.5、Aya、Qwen-2.5和Meta-Llama-3.1等变体进行了实验。该研究是首次大规模的越南语释义研究,为未来在越南语释义任务中的应用和研究提供了有价值的参考。
相关研究论文
  • 1
    A Large-Scale Benchmark for Vietnamese Sentence Paraphrases越南信息技术大学,胡志明市,越南;越南国家大学,胡志明市,越南 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作