SynthSTEL-ES
收藏Hugging Face2026-05-06 更新2026-05-07 收录
下载链接:
https://huggingface.co/datasets/cespinr/SynthSTEL-ES
下载链接
链接失效反馈官方服务:
资源简介:
SynthSTEL-ES是一个西班牙语风格对比数据集,包含51,400个对比三元组,专为微调风格嵌入模型而设计。每个三元组由锚文本(anchor)、正例(positive,相同内容不同风格)和负例(negative,对比风格)组成。数据集覆盖了7个语言层面的71个风格维度,包括方言与语音、表达性形态、句法复杂性、词汇与话语标记、语域与语用、数字风格与结构以及表达性与情感。文本长度根据维度复杂性在30至150词之间。该数据集使用Gemini 2.5 Flash-Lite API通过结构化提示生成,适用于微调西班牙语的多语言风格嵌入模型。
SynthSTEL-ES is a Spanish style contrastive dataset containing 51,400 contrastive triplets, specifically designed for fine-tuning style embedding models. Each triplet consists of an anchor text, a positive example (same content, different style), and a negative example (contrasting style). The dataset covers 71 style dimensions across 7 linguistic levels, including dialect and phonetics, expressive morphology, syntactic complexity, lexicon and discourse markers, register and pragmatics, numerical style and structure, and expressiveness and emotion. Text length ranges from 30 to 150 words depending on dimension complexity. The dataset was generated using the Gemini 2.5 Flash-Lite API through structured prompts and is suitable for fine-tuning multilingual style embedding models for Spanish.
创建时间:
2026-05-04
原始信息汇总
SynthSTEL-ES — 西班牙语风格对比数据集
数据集概述
SynthSTEL-ES 是一个包含 51,400 个对比三元组 的西班牙语数据集,专为微调风格嵌入模型而设计。每个三元组由锚点、正例(内容相同但风格不同)和负例(风格对比鲜明)组成。
数据结构
| 列名 | 描述 |
|---|---|
anchor |
参考文本 |
positive |
与锚点内容相同、风格不同的文本 |
negative |
风格对比鲜明的文本 |
dimension |
目标风格维度 |
layer |
语言层面(共7类) |
风格覆盖范围
数据集涵盖 71 个风格维度,分布在 7 个语言层面:
| 语言层面 | 维度数量 | 示例 |
|---|---|---|
| 方言与语音层面 | 11 | voseo、tuteo、地域变体 |
| 表达形态学 | 13 | 指小词(casita)、指大词(golazo) |
| 句法复杂度 | 11 | 虚拟语气、从句 |
| 词汇与话语标记 | 13 | 术语、pues、además |
| 语域与语用 | 8 | 正式/非正式、usted vs. tú |
| 数字风格与结构 | 10 | 表情符号、大写、短语 |
| 表达与情感 | 5 | 共情语气、积极评价 |
生成方式
三元组通过 Gemini 2.5 Flash-Lite API 生成,使用结构化提示指定目标风格特征、语言层面和主题。文本长度根据维度复杂度在 30 到 150 词 之间。
预期用途
用于微调多语言风格嵌入模型(例如 mStyleDistance)以适应西班牙语。相关模型请参见 cespinr/StyleECU。
作者
- César Espín-Riofrio — 厄瓜多尔瓜亚基尔大学研究员 & 西班牙哈恩大学SINAI研究所研究员;厄瓜多尔瓜亚基尔大学FCI-036-2023研究项目主任
- Arturo Montejo-Ráez — 西班牙哈恩大学SINAI研究所研究员
- Carlos Díaz-Suárez, Melanye Lainez-Farfán — 厄瓜多尔瓜亚基尔大学,FCI-036-2023研究项目成员
引用
论文正在评审中,引用信息将在发表后更新。
bibtex @misc{espinriofrio2026synthstel, author = {Espín-Riofrio, César and Montejo-Ráez, Arturo and Díaz-Suárez, Carlos and Lainez-Farfán, Melanye}, title = {SynthSTEL-ES: Spanish Stylistic Contrastive Dataset}, year = {2026}, url = {https://huggingface.co/datasets/cespinr/SynthSTEL-ES} }
搜集汇总
数据集介绍

构建方式
在西班牙语风格分析与对比学习日益受到关注的背景下,SynthSTEL-ES数据集应运而生。该数据集采用基于生成式人工智能的方法构建,利用Gemini 2.5 Flash-Lite API,通过结构化提示词引导,针对特定风格特征、语言层次和主题生成文本三元组。每个三元组包含锚点文本、与锚点内容相同但风格迥异的正样本,以及风格对比鲜明的负样本。文本长度根据风格维度的复杂度调整,介于30至150词之间,最终形成了包含51,400个对比三元组的大规模资源。
特点
SynthSTEL-ES数据集在风格覆盖面上展现出卓越的系统性。它囊括了7个语言层次的71种风格维度,涵盖方言与语音、表达性形态、句法复杂度、词汇与话语标记、语域与语用、数字风格与结构、以及表达力与情感等层面。这种多维度、多层次的设计使得该数据集能够精细捕捉西班牙语丰富的风格变异。此外,数据集中每个样本均标注了目标风格维度和所属语言层次,为细粒度风格嵌入模型的训练提供了高质量的监督信号。
使用方法
该数据集专为微调多语言风格嵌入模型设计,尤其适用于如mStyleDistance等模型在西班牙语场景下的适配。研究者可通过加载三元组数据,采用对比学习目标函数进行训练,使模型学会区分不同风格维度上的文本差异。具体使用时,可依据anchor、positive、negative三列构建训练样本,并利用dimension和layer字段实现分层训练或评估。该数据集与cespinr/StyleECU模型配套使用,为西班牙语风格计算研究提供了完整的基准框架。
背景与挑战
背景概述
在自然语言处理领域,文本风格建模长久以来面临着语义与风格纠缠的困境。由厄瓜多尔瓜亚基尔大学与西班牙哈恩大学SINAI研究团队联合构建的SynthSTEL-ES数据集于2026年发布,基于研究项目FCI-036-2023,旨在推动西班牙语文本风格嵌入模型的对比学习。该数据集包含51,400个对比三元组,覆盖方言语音、表达形态、句法复杂度、词汇与话语标记、语域与语用、数字文体结构以及表达力与情感七类语言层面、合计71种风格维度,填补了西班牙语风格化对比数据的稀缺空白。通过聚焦语义等同时的不同风格变换与风格对比,该数据集为多语言风格嵌入模型的微调提供了系统化资源,对计算文体学和跨语言风格分析研究具有基础性推动作用。
当前挑战
SynthSTEL-ES所解决的核心领域难题在于,现有风格表示模型多依赖粗粒度标签(如正式/非正式),难以捕捉细腻的风格维度差异及风格对语义区分的干扰效应。构建过程中面临多重挑战:首先,人工标注71种风格维度的对比三元组成本极高,需依赖大规模生成式模型进行结构化的风格可控生成,并确保生成文本在30至150词长度内保持语义一致性与风格可靠性。其次,风格空间存在交织现象,例如数字文体中的表情符号使用可能与表达力维度语义重叠,去冲突化的维度设计需精细的层次化构建策略。此外,数据生成需消除语言变体间的区域偏差,如方言层面中voseo与tuteo的地域分布不均衡性,以保障模型训练的鲁棒性。
常用场景
经典使用场景
在西班牙语自然语言处理领域,SynthSTEL-ES数据集被广泛用于微调风格嵌入模型,特别是针对多语言风格距离度量模型(如mStyleDistance)的西班牙语分支。通过其精心构建的51,400个对比三元组(锚点、风格一致的正样本和风格冲突的负样本),该数据集使得模型能够捕捉从方言音位到数字风格等71种风格维度的细微差异。研究者常利用该数据集进行对比学习训练,从而生成能够有效区分西班牙语文本风格的向量表示,为风格相关的文本分类任务提供坚实的基准。
实际应用
在实际应用层面,SynthSTEL-ES赋能多种需要细粒度风格感知的场景。例如,在社交媒体分析中,可用于识别数字语气(如全大写或emoji的过度使用)以检测营销内容或仇恨言论;在西班牙语教育领域,可帮助自动评估写作风格(如正式/非正式语体),提供针对性的写作反馈。此外,该数据集对于构建跨风格的信息检索系统具有重要价值,例如,检索与用户查询风格相近的法律文本或学术论文摘要,从而提升人机交互的贴合度和用户体验。
衍生相关工作
基于SynthSTEL-ES已衍生出一系列具有代表性的工作,其中最为瞩目的是由同一团队训练的StyleECU模型。该模型以该数据集为训练核心,实现了西班牙语风格向量的精准编码,并已在风格分类和风格相似度计算任务中展现出优异的性能。此外,该数据集为多语言风格嵌入的统一研究提供了西班牙语分支的标准化资源,激发了对跨语言风格对比学习的深入探索。未来工作可能将其作为基准,用于评估对抗性风格不变性表示或跨域风格迁移等前沿方向的有效性。
以上内容由遇见数据集搜集并总结生成



