EN2CS
收藏arXiv2025-02-18 更新2025-02-27 收录
下载链接:
https://github.com/hitz-zentroa/cs-generation
下载链接
链接失效反馈官方服务:
资源简介:
EN2CS数据集是由自然发生的英语-西班牙语代码转换句子和对应的英语单语句子组成的伪平行语料库。该数据集由HiTZ Center - Ixa研究机构创建,旨在训练和评估英语-西班牙语代码转换生成模型。数据集包括训练、开发和测试三个部分,共有12933条训练数据。该数据集的创建过程包括从LINCE基准数据集中筛选出代码转换句子,使用Command R模型生成英语单语句子,然后进行后编辑以创建黄金标准测试集。该数据集的应用领域是代码转换文本的生成,旨在解决机器翻译和自然语言处理中的代码转换问题。
The EN2CS dataset is a pseudo-parallel corpus comprising naturally occurring English-Spanish code-switching sentences and their corresponding English monolingual sentences. It was developed by the HiTZ Center - Ixa research institute for training and evaluating English-Spanish code-switching generation models. The dataset is split into three subsets: training, development, and test, with a total of 12,933 training samples. Its construction process includes screening code-switching sentences from the LINCE benchmark dataset, generating English monolingual sentences using the Command R model, and performing post-editing to build the gold-standard test set. This dataset targets code-switching text generation, aiming to address code-switching-related challenges in machine translation and natural language processing.
提供机构:
HiTZ Center - Ixa, University of the Basque Country UPV/EHU
创建时间:
2025-02-18
搜集汇总
数据集介绍

构建方式
EN2CS数据集的构建方式独具匠心。首先,研究人员从LINCE基准数据集中筛选出包含代码转换的英语-西班牙语句子,并利用大型语言模型将这些代码转换的句子翻译成单语英语句子。然后,他们使用这些生成的单语英语句子与原始的代码转换句子创建了一个伪平行语料库,并将其用于微调大型语言模型以生成代码转换文本。这种方法的关键在于利用自然发生的代码转换数据作为起点,使模型能够学习其自然分布,而不仅仅是语法模式。
使用方法
使用EN2CS数据集的方法包括:1. 训练代码转换生成模型:使用银色训练集和开发集对大型语言模型进行微调,使其能够根据单语英语句子生成代码转换文本;2. 评估代码转换生成模型:使用金色测试集对训练好的模型进行评估,以检验其生成代码转换文本的能力;3. 研究代码转换生成模型的性能:通过人工评估和自动评估相结合的方式,对模型的性能进行全面评估,以发现模型的优点和不足。
背景与挑战
背景概述
EN2CS数据集是在2025年由HiTZ Center - Ixa, University of the Basque Country UPV/EHU的研究人员提出的,旨在解决自然语言处理(NLP)领域中的代码切换(CS)问题。代码切换是指在同一语篇中混合使用两种或多种语言的现象,在多语言环境中非常普遍。然而,当前的大型语言模型(LLMs)在解释和生成代码切换文本方面面临挑战,主要原因是缺乏用于训练的大规模代码切换数据集。EN2CS数据集通过使用LLMs将自然发生的代码切换句子回译成单语英语,并利用由此产生的平行语料库来微调LLMs,以将单语句子转换为代码切换文本,从而为代码切换文本的生成提供了新的研究方法。该数据集的发布为CS通信的研究提供了新的机会,并强调了在评估自动生成的CS文本质量时,传统指标与人类判断之间缺乏相关性。
当前挑战
EN2CS数据集的研究背景主要包括LLMs在生成代码切换文本方面的不足,以及缺乏大规模代码切换数据集用于训练。此外,该数据集的构建过程中也遇到了一些挑战,例如如何从自然发生的代码切换数据中生成高质量的平行语料库,以及如何有效地微调LLMs以生成自然流畅的代码切换文本。在评估方面,EN2CS数据集还面临着传统指标与人类判断之间缺乏相关性,以及需要开发更专业的评估方法来捕捉CS生成的细微差别等挑战。
常用场景
经典使用场景
EN2CS数据集主要用于训练和评估大型语言模型在生成代码切换文本方面的能力。代码切换是一种在自然语言处理中尚未完全解决的挑战,因为现有的模型在解释和生成代码切换文本方面存在困难。EN2CS数据集通过提供一种新颖的方法,即使用自然发生的代码切换数据作为起点,来训练大型语言模型,从而克服了这一挑战。该方法涉及将自然的代码切换句子反向翻译成单语英语,并使用生成的平行语料库来微调大型语言模型,使其能够将单语句子转换为代码切换文本。
解决学术问题
EN2CS数据集解决了代码切换文本生成中的学术研究问题。现有的自然语言处理模型在处理代码切换文本时表现不佳,因为缺乏大规模的代码切换数据集用于训练。EN2CS数据集通过提供一种新颖的方法,即使用自然发生的代码切换数据作为起点,来训练大型语言模型,从而克服了这一挑战。该方法涉及将自然的代码切换句子反向翻译成单语英语,并使用生成的平行语料库来微调大型语言模型,使其能够将单语句子转换为代码切换文本。
实际应用
EN2CS数据集在实际应用场景中具有广泛的应用前景。它可用于训练和评估代码切换文本生成模型,这些模型可用于社交网络数据处理、语音识别、语音合成等任务。此外,EN2CS数据集还可用于开发能够处理代码切换文本的自然语言处理系统,例如聊天机器人、语言识别系统、情感分析系统等。
数据集最近研究
最新研究方向
EN2CS数据集的最新研究方向在于探索自然语言处理(NLP)领域中的代码转换(CS)现象。该数据集通过使用大型语言模型(LLM)将自然发生的代码转换文本作为起点,生成了一种新颖的CS数据生成方法。这一方法克服了当前LLMs在解释和生成代码转换文本方面的困难,并扩展了CS通信研究的机会。EN2CS数据集提供了一个银色训练集和开发集,以及一个经过人工编辑的黄金测试集,可用于训练和评估英语-西班牙语代码转换生成模型。此外,研究还强调了当前评估自动生成CS文本的自动指标与人类判断之间缺乏相关性,这突出了开发专门评估方法的重要性,以便更准确地捕捉CS生成任务的复杂性和微妙之处。
相关研究论文
- 1Conditioning LLMs to Generate Code-Switched Text: A Methodology Grounded in Naturally Occurring DataHiTZ Center - Ixa, University of the Basque Country UPV/EHU · 2025年
以上内容由遇见数据集搜集并总结生成



