TYDIP

Name: TYDIP
Creator: 德克萨斯大学奥斯汀分校计算机科学系
Published: 2022-11-30 02:58:15
License: 暂无描述

arXiv2022-11-30 更新2024-06-21 收录

下载链接：

https://github.com/Genius1237/TyDiP

下载链接

链接失效反馈

官方服务：

资源简介：

TYDIP数据集由德克萨斯大学奥斯汀分校计算机科学系创建，专注于九种不同语言的礼貌现象分类。该数据集包含每种语言500个示例，总计4500个示例，每个示例都有三重礼貌标注。数据集内容来源于各自语言的维基百科用户讨论页，旨在捕捉丰富的语言策略。创建过程中，通过精心设计的注释流程确保了注释者之间的高一致性。TYDIP数据集的应用领域包括评估多语言模型、构建礼貌的多语言代理等，旨在解决跨文化交流中的礼貌现象问题。

The TYDIP dataset was developed by the Department of Computer Science at The University of Texas at Austin, focusing on the classification of politeness phenomena across nine distinct languages. Comprising 500 examples per language, the dataset totals 4,500 instances overall, with each entry annotated with tripartite politeness labels. The dataset is sourced from Wikipedia user talk pages in their respective languages, aiming to capture a rich repertoire of linguistic politeness strategies. During its construction, a meticulously designed annotation pipeline was implemented to ensure high inter-annotator agreement. Application scenarios of the TYDIP dataset include multilingual model evaluation and the development of polite multilingual AI agents, among others, with the goal of addressing politeness phenomena in cross-cultural communication.

提供机构：

德克萨斯大学奥斯汀分校计算机科学系

创建时间：

2022-11-30

搜集汇总

数据集介绍

构建方式

TYDIP数据集的构建源于对跨文化礼貌现象的深入探究，旨在覆盖九种类型学上迥异的语言，包括印地语、韩语、西班牙语、泰米尔语、法语、越南语、俄语、南非荷兰语和匈牙利语。研究团队从各语种的维基百科用户讨论页面中提取请求语句，聚焦于包含问句的连续对话片段。为确保标注质量，他们通过众包平台Prolific招募母语标注者，并设计了包含翻译测试与模型辅助筛选的资格流程，最终为每种语言收集了500条请求的三方礼貌评分，总计4500个标注样本。

特点

该数据集的核心特点在于其原生性与多样性。所有文本均来自各语言的原始语料，避免了翻译带来的语用偏差，从而更真实地反映了特定文化语境下的礼貌表达。标注结果表明，母语者对其母语请求的礼貌判断一致性显著高于对英语的判断，揭示了语用感知的文化特异性。此外，数据集的评分采用连续值（-3至+3），并支持二分类任务，为跨语言礼貌研究提供了细腻的量化基础。

使用方法

研究者可利用TYDIP评估多语言模型在零样本场景下的礼貌预测能力，例如通过微调XLM-RoBERTa等预训练模型，在未见过的语言上测试其泛化性能。数据集也可用于分析礼貌策略的跨语言映射，如利用自动翻译与词汇对齐技术构建多语言礼貌词表，观察不同策略在不同语言中的一致性。此外，该数据集支持礼貌与正式度之间的迁移学习研究，为构建更具文化敏感性的多语言对话系统提供了宝贵的评测资源。

背景与挑战

背景概述

礼貌作为人类交际中不可或缺的语用维度，长期以来在社会语言学领域引发关于其普遍性与文化特异性的激烈争论。为弥合计算语言学研究长期局限于英语的缺憾，德克萨斯大学奥斯汀分校的Anirudh Srinivasan与Eunsol Choi于2022年构建了TYDIP数据集，聚焦九种类型学差异显著的语言（印地语、韩语、西班牙语、泰米尔语、法语、越南语、俄语、南非荷兰语、匈牙利语），覆盖五大书写系统与八大语系。该数据集从各语种维基百科用户讨论页中提取500条请求语句，并经由母语者完成三维度礼貌评分，总计4500条标注样本。TYDIP不仅为跨文化礼貌现象的量化分析提供了稀缺资源，更推动了多语言模型在主观语用任务上的评估与多语言礼貌代理系统的研发。

当前挑战

TYDIP数据集面临的核心挑战涵盖领域问题与构建过程双重维度。在领域层面，礼貌预测涉及高度主观的语用解读，现有最先进多语言模型在零样本迁移中虽表现稳健，但在九种语言中有六种语言的准确率与人类标注者一致性差距超过10%，凸显模型对微妙文化语境理解的不足。构建过程中，低资源语言的众包标注尤为棘手：研究者需设计包含翻译任务与模型辅助筛选的多阶段质检流程，以过滤语言能力不足或标注偏差的工人；同时，跨语言请求中混杂非目标语文本，需借助语言识别工具严格过滤。此外，自动生成的礼貌策略词典依赖机器翻译与词对齐技术，覆盖率仅达60%-70%，且一词多义现象导致映射精度受限，为后续分析引入不确定性。

常用场景

经典使用场景

在跨语言礼貌计算领域，TYDIP数据集为研究者提供了涵盖九种类型多样语言的请求文本及其礼貌评分，成为探索礼貌现象普遍性与文化特异性的核心资源。该数据集聚焦于维基百科用户讨论页中的请求话语，通过精细的三向标注和严格的质控流程，确保了跨语言数据的高质量。其经典使用场景在于评估多语言预训练模型在零样本条件下的礼貌分类能力，例如使用XLM-RoBERTa等模型进行跨语言迁移学习，从而检验模型对语用和主观语言理解的泛化性能。

衍生相关工作

基于TYDIP数据集，衍生了一系列具有影响力的研究工作。其中，研究者利用该数据集评估了GPT-3等大型语言模型在零样本提示下的跨语言礼貌预测性能，发现其虽具竞争力但仍显著低于人类水平。此外，通过自动对齐方法构建的多语言礼貌策略词典，催生了关于礼貌策略跨语言一致性的深入分析，例如发现‘请’策略在多数语言中与高礼貌评分正相关，但在西班牙语中呈现例外。还有工作将TYDIP与X-FORMAL等正式度数据集结合，研究了礼貌与正式度之间的转移学习，揭示了风格改写对礼貌感知的微妙影响。

数据集最近研究