eleftheria/refresd
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/eleftheria/refresd
下载链接
链接失效反馈官方服务:
资源简介:
Rationalized English-French Semantic Divergences (REFreSD) 数据集包含1039个英法句子对,每个句子对都标注了句子级别的分歧判断和词级别的理由。该数据集的创建旨在推进我们对跨语言文本意义比较和对比的计算表示和方法的基本理解。数据集可用于评估计算方法在检测语言间意义不匹配方面的能力,模型性能通过将模型预测与REFreSD中的人类判断进行比较来衡量。数据集中的文本来自维基百科,语言为英语和法语。
Rationalized English-French Semantic Divergences (REFreSD) dataset contains 1,039 English-French sentence pairs, each annotated with sentence-level divergence judgment and word-level rationales. This dataset is constructed to advance the fundamental understanding of computational representations and methodologies for comparing and contrasting textual meaning across languages. It can be utilized to evaluate the capability of computational methods to detect meaning mismatches between languages, where model performance is measured by comparing model predictions with human judgments in the REFreSD dataset. The textual data in this dataset is sourced from Wikipedia, available in both English and French.
提供机构:
eleftheria
原始信息汇总
数据集概述
数据集名称
- 名称: Rationalized English-French Semantic Divergences (REFreSD)
数据集内容
- 语言: 英语(en)和法语(fr)
- 数据类型: 1,039个英法句子对,包含句子级别的分歧判断和词级别的理由
- 任务类别: 文本分类、翻译
- 具体任务: 语义相似度分类、语义相似度评分、文本评分
数据集结构
- 数据实例: 每个实例包含英法句子对、标签、所有标签、英法理由
- 数据字段:
sentence_en: 英语句子sentence_fr: 法语句子label: 二元标签,表示句子是否对应(0: 分歧, 1: 等价)all_labels: 三类标签,详细描述意义差异(0: 无关, 1: 意义有差异, 2: 无意义差异)rationale_en: 英语句子中词级别理由的标注rationale_fr: 法语句子中词级别理由的标注
数据集创建
- 来源数据: 来自WikiMatrix语料库的英法部分
- 标注过程: 通过众包和机器生成,标注者需标注添加、改变或其他,并评估句子间关系
- 标注者: 6名来自马里兰大学的学生,年龄20-25岁,精通英法双语
数据集使用考虑
- 社会影响: 可用于提升机器翻译、跨语言迁移学习等任务的性能
- 偏见讨论: 可能存在性别和地域偏见,需进一步分析
许可证
- 许可证: MIT License



