five

ParaFusion

收藏
arXiv2024-04-18 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2404.12010v1
下载链接
链接失效反馈
官方服务:
资源简介:
ParaFusion是由斯里兰卡信息技术研究所开发的英语释义数据集,专注于通过大型语言模型提升语法和词汇的多样性。该数据集包含约200万个独特的释义句子对,旨在解决现有数据集中存在的语义相似度过高和包含不当内容的问题。ParaFusion通过综合多个数据源,确保了数据集的广泛性和多样性,适用于提升自然语言处理模型的性能和泛化能力。

ParaFusion is an English paraphrase dataset developed by the Sri Lanka Institute of Information Technology, which focuses on enhancing grammatical and lexical diversity via Large Language Models (LLMs). It contains approximately 2 million unique paraphrase sentence pairs, and is designed to address the issues of overly high semantic similarity and inappropriate content in existing datasets. By integrating multiple data sources, ParaFusion ensures the comprehensiveness and diversity of the dataset, making it suitable for improving the performance and generalization capabilities of Natural Language Processing (NLP) models.
提供机构:
信息技术研究所,科伦坡00600,斯里兰卡
创建时间:
2024-04-18
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作