cmu-lti/multi-figqa

Name: cmu-lti/multi-figqa
Creator: cmu-lti
Published: 2023-05-31 01:17:24
License: 暂无描述

Hugging Face2023-05-31 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/cmu-lti/multi-figqa

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: mit task_categories: - question-answering language: - hi - id - su - jv - kn - sw - yo size_categories: - 1K<n<10K --- # Dataset Card for multi-figqa ## Table of Contents - [Dataset Description](#dataset-description) - [Dataset Summary](#dataset-summary) - [Supported Tasks](#supported-tasks-and-leaderboards) - [Languages](#languages) - [Dataset Structure](#dataset-structure) - [Data Instances](#data-instances) - [Data Fields](#data-instances) - [Data Splits](#data-instances) - [Dataset Creation](#dataset-creation) - [Curation Rationale](#curation-rationale) - [Source Data](#source-data) - [Annotations](#annotations) - [Personal and Sensitive Information](#personal-and-sensitive-information) - [Considerations for Using the Data](#considerations-for-using-the-data) - [Social Impact of Dataset](#social-impact-of-dataset) - [Discussion of Biases](#discussion-of-biases) - [Other Known Limitations](#other-known-limitations) - [Additional Information](#additional-information) - [Dataset Curators](#dataset-curators) - [Licensing Information](#licensing-information) - [Citation Information](#citation-information) ## Dataset Description - **Homepage:** [Needs More Information] - **Repository:** [Multi-FigQA](https://github.com/simran-khanuja/Multilingual-Fig-QA) - **Paper:** [Multi-lingual and Multi-cultural Figurative Language Understanding ](https://arxiv.org/abs/2305.16171) - **Leaderboard:** [Needs More Information] - **Point of Contact:** [Emmy Liu](emmy@cmu.edu) ### Dataset Summary A multilingual dataset of human-written creative figurative expressions in many languages (mostly metaphors and similes). The English version (with the same format) can be found [here](https://huggingface.co/datasets/nightingal3/fig-qa) ### Languages Languages included are Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, and Yoruba. The language codes are respectively `hi`, `id`, `kn`, `su`, `sw`, and `yo`. ## Dataset Structure ### Data Instances ``` { 'startphrase': the phrase, 'ending1': one possible answer, 'ending2': another possible answer, 'labels': 0 if ending1 is correct else 1 } ``` ### Data Splits All data in each language is originally intended to be used as a test set for that language. ## Dataset Creation ### Curation Rationale Figurative language permeates human communication, but at the same time is relatively understudied in NLP. Datasets have been created in English to accelerate progress towards measuring and improving figurative language processing in language models (LMs). However, the use of figurative language is an expression of our cultural and societal experiences, making it difficult for these phrases to be universally applicable. We created this dataset as part of an effort to introduce more culturally relevant training data for different languages and cultures. ### Source Data #### Who are the source language producers? The language producers were hired to write creative sentences in their native languages. ## Additional Information ### Citation Information Please use this citation if you found this helpful: ``` @misc{kabra2023multilingual, title={Multi-lingual and Multi-cultural Figurative Language Understanding}, author={Anubha Kabra and Emmy Liu and Simran Khanuja and Alham Fikri Aji and Genta Indra Winata and Samuel Cahyawijaya and Anuoluwapo Aremu and Perez Ogayo and Graham Neubig}, year={2023}, eprint={2305.16171}, archivePrefix={arXiv}, primaryClass={cs.CL} } ```

许可证：MIT协议任务类别： - 问答语言： - 印地语（`hi`） - 印尼语（`id`） - 巽他语（`su`） - 爪哇语（`jv`） - 卡纳达语（`kn`） - 斯瓦希里语（`sw`） - 约鲁巴语（`yo`）样本规模：`1K < n < 10K` --- # multi-figqa 数据集卡片 ## 目录 - [数据集描述](#dataset-description) - [数据集概览](#dataset-summary) - [支持的任务与排行榜](#supported-tasks-and-leaderboards) - [语言分布](#languages) - [数据集结构](#dataset-structure) - [数据实例](#data-instances) - [数据字段](#data-fields) - [数据划分](#data-splits) - [数据集构建](#dataset-creation) - [遴选依据](#curation-rationale) - [源数据](#source-data) - [标注流程](#annotations) - [个人与敏感信息](#personal-and-sensitive-information) - [数据集使用注意事项](#considerations-for-using-the-data) - [数据集的社会影响](#social-impact-of-dataset) - [偏差讨论](#discussion-of-biases) - [已知其他局限](#other-known-limitations) - [附加信息](#additional-information) - [数据集构建者](#dataset-curators) - [许可证信息](#licensing-information) - [引用信息](#citation-information) ## 数据集描述 - **主页：[待补充更多信息]** - **代码仓库：[Multi-FigQA](https://github.com/simran-khanuja/Multilingual-Fig-QA)** - **论文：[多语言与多文化比喻语言理解](https://arxiv.org/abs/2305.16171)** - **排行榜：[待补充更多信息]** - **联系方式：[Emmy Liu](emmy@cmu.edu)** ### 数据集概览本数据集为多语言数据集，收录人类创作的创意比喻性表达（以隐喻（metaphor）和明喻（simile）为主）。同格式的英语版本可于[此处](https://huggingface.co/datasets/nightingal3/fig-qa)获取。 ### 语言分布本数据集涵盖的语言包括印地语、印尼语、爪哇语、卡纳达语、巽他语、斯瓦希里语和约鲁巴语，对应的语言代码依次为`hi`、`id`、`kn`、`su`、`sw`及`yo`。 ## 数据集结构 ### 数据实例 json { "startphrase": 待处理短语, "ending1": 候选答案一, "ending2": 候选答案二, "labels": 若候选答案一正确则取值为0，反之则为1 } ### 数据字段（暂无详细说明） ### 数据划分各语言的全部数据最初均被设计为对应语言的测试集。 ## 数据集构建 ### 遴选依据比喻性语言广泛渗透于人类沟通场景中，但在自然语言处理（Natural Language Processing，NLP）领域相关研究仍相对滞后。此前已有英语数据集被构建，以推动语言模型（Language Models，LMs）对比喻性语言的理解与评测研究进展。然而，比喻性语言的使用是文化与社会经验的具象表达，导致英语相关数据集难以具备跨文化普适性。本数据集的构建旨在为不同语言与文化场景提供更贴合文化背景的训练数据。 ### 源数据 #### 源语言内容创作者是谁？源语言创作者均为受邀以母语创作创意语句的人员。 ### 标注流程（暂无详细说明） ### 个人与敏感信息（暂无详细说明） ## 数据集使用注意事项 ### 数据集的社会影响（暂无详细说明） ### 偏差讨论（暂无详细说明） ### 已知其他局限（暂无详细说明） ## 附加信息 ### 数据集构建者（暂无详细说明） ### 许可证信息（暂无详细说明） ### 引用信息若本数据集对您的研究有所帮助，请采用如下引用格式： bibtex @misc{kabra2023multilingual, title={Multi-lingual and Multi-cultural Figurative Language Understanding}, author={Anubha Kabra and Emmy Liu and Simran Khanuja and Alham Fikri Aji and Genta Indra Winata and Samuel Cahyawijaya and Anuoluwapo Aremu and Perez Ogayo and Graham Neubig}, year={2023}, eprint={2305.16171}, archivePrefix={arXiv}, primaryClass={cs.CL} }

提供机构：

cmu-lti

原始信息汇总

数据集卡片 for multi-figqa

数据集描述

数据集摘要

一个多语言数据集，包含人类编写的创意比喻表达（主要是隐喻和明喻）。英语版本（格式相同）可以在这里找到。

支持的任务和排行榜

任务类别: 问答
语言:
- 印地语 (hi)
- 印度尼西亚语 (id)
- 爪哇语 (jv)
- 卡纳达语 (kn)
- 巽他语 (su)
- 斯瓦希里语 (sw)
- 约鲁巴语 (yo)
数据集大小: 1K<n<10K

语言

包含的语言有印地语、印度尼西亚语、爪哇语、卡纳达语、巽他语、斯瓦希里语和约鲁巴语。对应的语言代码分别是 hi, id, jv, kn, su, sw, 和 yo。

数据集结构

数据实例

json { startphrase: "the phrase", ending1: "one possible answer", ending2: "another possible answer", labels: 0 if ending1 is correct else 1 }

数据分割

每种语言的所有数据最初都打算用作该语言的测试集。

数据集创建

策划理由

比喻语言渗透人类交流，但在自然语言处理（NLP）中相对较少研究。英语中已经创建了数据集，以加速衡量和改进语言模型（LMs）中的比喻语言处理。然而，比喻语言的使用是我们文化和社會经验的表达，这使得这些短语难以普遍适用。我们创建这个数据集是为了引入更多与不同语言和文化相关的训练数据。

源数据

源语言生产者是谁？

语言生产者被雇佣来用他们的母语编写创意句子。

其他信息

引用信息

请使用以下引用信息：

bibtex @misc{kabra2023multilingual, title={Multi-lingual and Multi-cultural Figurative Language Understanding}, author={Anubha Kabra and Emmy Liu and Simran Khanuja and Alham Fikri Aji and Genta Indra Winata and Samuel Cahyawijaya and Anuoluwapo Aremu and Perez Ogayo and Graham Neubig}, year={2023}, eprint={2305.16171}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，跨文化语境下的比喻性语言理解一直面临数据稀缺的挑战。为应对这一难题，multi-figqa数据集通过雇佣以目标语言为母语的语言生产者，精心创作了包含隐喻和明喻的创造性比喻表达。这些表达涵盖了印地语、印尼语、爪哇语、卡纳达语、巽他语、斯瓦希里语和约鲁巴语七种语言，每种语言的数据均被设计为独立的测试集，旨在为不同语言和文化背景提供专门化的评估资源。

特点

该数据集的核心特征在于其鲜明的多语言与多文化属性，专注于捕捉比喻性语言这一复杂语言现象。数据实例以三元组形式呈现，包含一个起始短语和两个备选结尾，其中仅有一个为正确解释，这为模型区分字面含义与比喻含义提供了明确的判别任务。其涵盖的语言不仅包括使用广泛的语言，也纳入了资源相对稀缺的语言，如爪哇语和巽他语，从而为评估语言模型的跨文化比喻理解能力构建了一个独特而宝贵的基准。

使用方法

使用multi-figqa数据集时，研究者可直接将其应用于多语言问答任务的模型测试与评估。鉴于其数据均被标注为测试集，主要用途在于零样本或少样本场景下，衡量预训练语言模型对非英语比喻性语言的泛化理解能力。在实际操作中，模型需根据给定的起始比喻短语，从两个备选结尾中识别出符合文化语境与比喻逻辑的正确选项，该过程能够有效检验模型超越字面含义、捕捉深层语义关联的认知水平。

背景与挑战

背景概述

在自然语言处理领域，理解比喻性语言是衡量语言模型深层语义能力的关键挑战。由卡内基梅隆大学语言技术研究所等机构的研究人员于2023年创建的Multi-FigQA数据集，旨在填补多语言比喻理解研究的空白。该数据集聚焦于隐喻和明喻等创意性比喻表达，涵盖了印地语、印尼语、爪哇语等七种语言，核心研究问题在于探索语言模型对不同文化背景下比喻性语言的跨文化理解能力。这一资源的推出，为促进语言模型的包容性与文化适应性提供了重要数据基础，推动了多语言自然语言处理研究向更细腻的语义层面拓展。

当前挑战

Multi-FigQA数据集所针对的领域问题是多语言比喻性语言理解，其核心挑战在于比喻表达高度依赖文化语境与生活经验，导致模型难以从字面意义推断其隐含语义，且不同语言间的比喻结构差异显著，增加了统一建模的复杂度。在构建过程中，研究人员面临的主要挑战包括：确保收集的比喻句在各类语言中均体现本文化的独特创意，避免直接翻译导致的语义失真；同时，雇佣母语者进行创作虽保障了语言的地道性，但也引入了数据规模有限、标注成本高昂的制约，使得数据覆盖的多样性与平衡性难以充分实现。

常用场景

经典使用场景

在自然语言处理领域，多语言比喻性语言理解正逐渐成为研究热点。Multi-FigQA数据集通过提供涵盖印地语、印尼语、爪哇语等多种语言的创造性比喻表达，为跨语言比喻识别与理解任务提供了标准化的评估基准。研究者常利用该数据集测试语言模型对非字面含义的解析能力，特别是在多语言语境下模型对隐喻和明喻的敏感性。

衍生相关工作

基于该数据集衍生的经典研究包括多语言隐喻检测框架的构建与文化适应性模型的开发。研究者通过对比分析不同语言家族中比喻表达的共性特征，提出了跨语言隐喻迁移学习方法。相关成果已应用于多语言预训练模型的微调过程，显著提升了模型在低资源语言环境下的比喻理解性能，为后续的跨文化自然语言理解研究奠定了方法论基础。

数据集最近研究