BLEnD

Hugging Face2024-06-24 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/nayeon212/BLEnD

下载链接

链接失效反馈

官方服务：

资源简介：

BLEnD数据集是一个手工制作的基准，旨在评估大型语言模型在多元文化和语言中的日常知识。该数据集包含来自16个国家和地区、13种不同语言（包括低资源语言）的52.6k个问答对。数据集分为两种评估格式：简答题和多项选择题。每个国家/地区的数据通过国家代码进行访问，数据包括问题、答案及其在本地语言和英语中的标注。

The BLEnD dataset is a hand-curated benchmark designed to evaluate large language models' (LLMs) everyday knowledge across diverse cultures and languages. It contains 52.6k question-answer pairs spanning 13 distinct languages, including low-resource languages, from 16 countries and regions. The dataset is structured into two evaluation formats: short-answer questions and multiple-choice questions. Data for each country or region is accessible via its country code, with each entry including the question, answer, and their annotations in both the local language and English.

创建时间：

2024-06-11

原始信息汇总

数据集概述

数据集信息

许可证: cc-by-sa-4.0
任务类别:
- 问答
语言:
- 英语 (en)
- 中文 (zh)
- 西班牙语 (es)
- 印尼语 (id)
- 韩语 (ko)
- 希腊语 (el)
- 波斯语 (fa)
- 阿拉伯语 (ar)
- 阿塞拜疆语 (az)
- 巽他语 (su)
- 阿萨姆语 (as)
- 豪萨语 (ha)
- 阿姆哈拉语 (am)
数据集大小:
- 10K<n<100K

数据集配置

配置名称: annotations
- 数据文件:
  - 分割: DZ, 路径: "data/annotations_hf/Algeria_data.json"
  - 分割: AS, 路径: "data/annotations_hf/Assam_data.json"
  - 分割: AZ, 路径: "data/annotations_hf/Azerbaijan_data.json"
  - 分割: CN, 路径: "data/annotations_hf/China_data.json"
  - 分割: ET, 路径: "data/annotations_hf/Ethiopia_data.json"
  - 分割: GR, 路径: "data/annotations_hf/Greece_data.json"
  - 分割: ID, 路径: "data/annotations_hf/Indonesia_data.json"
  - 分割: IR, 路径: "data/annotations_hf/Iran_data.json"
  - 分割: MX, 路径: "data/annotations_hf/Mexico_data.json"
  - 分割: KP, 路径: "data/annotations_hf/North_Korea_data.json"
  - 分割: NG, 路径: "data/annotations_hf/Northern_Nigeria_data.json"
  - 分割: KR, 路径: "data/annotations_hf/South_Korea_data.json"
  - 分割: ES, 路径: "data/annotations_hf/Spain_data.json"
  - 分割: GB, 路径: "data/annotations_hf/UK_data.json"
  - 分割: US, 路径: "data/annotations_hf/US_data.json"
  - 分割: JB, 路径: "data/annotations_hf/West_Java_data.json"
配置名称: short-answer-questions
- 数据文件:
  - 分割: DZ, 路径: "data/questions_hf/Algeria_questions.json"
  - 分割: AS, 路径: "data/questions_hf/Assam_questions.json"
  - 分割: AZ, 路径: "data/questions_hf/Azerbaijan_questions.json"
  - 分割: CN, 路径: "data/questions_hf/China_questions.json"
  - 分割: ET, 路径: "data/questions_hf/Ethiopia_questions.json"
  - 分割: GR, 路径: "data/questions_hf/Greece_questions.json"
  - 分割: ID, 路径: "data/questions_hf/Indonesia_questions.json"
  - 分割: IR, 路径: "data/questions_hf/Iran_questions.json"
  - 分割: MX, 路径: "data/questions_hf/Mexico_questions.json"
  - 分割: KP, 路径: "data/questions_hf/North_Korea_questions.json"
  - 分割: NG, 路径: "data/questions_hf/Northern_Nigeria_questions.json"
  - 分割: KR, 路径: "data/questions_hf/South_Korea_questions.json"
  - 分割: ES, 路径: "data/questions_hf/Spain_questions.json"
  - 分割: GB, 路径: "data/questions_hf/UK_questions.json"
  - 分割: US, 路径: "data/questions_hf/US_questions.json"
  - 分割: JB, 路径: "data/questions_hf/West_Java_questions.json"
配置名称: multiple-choice-questions
- 数据文件:
  - 分割: test, 路径: "data/mc_questions_hf/mc_questions_file.json"

搜集汇总

数据集介绍

构建方式

BLEnD数据集通过手工构建的方式，收集了来自16个国家和地区的52.6k个问答对，涵盖了13种不同的语言，包括一些低资源语言如阿姆哈拉语、阿萨姆语、阿塞拜疆语、豪萨语和巽他语。数据集的构建旨在评估大语言模型在不同文化和语言背景下的日常知识表现。每个问答对都经过人工标注，确保其准确性和文化相关性。数据集中的问题涉及日常生活中的各个方面，如饮食习惯、节日庆祝方式等，这些问题通常不会在在线资源中明确记录。

特点

BLEnD数据集的一个显著特点是其多样性和广泛的文化覆盖范围。数据集不仅包含高资源语言如英语、中文和西班牙语，还特别关注低资源语言，如阿姆哈拉语和巽他语。此外，数据集提供了两种问题格式：简答题和选择题，这为评估大语言模型在不同任务中的表现提供了灵活性。数据集中的每个问题都附有本地语言和英语的双语版本，并包含人工标注的答案及其投票计数，确保了数据的可靠性和多样性。

使用方法

BLEnD数据集的使用方法相对简单，用户可以通过Hugging Face的`datasets`库加载数据集。数据集分为三个配置：`annotations`、`short-answer-questions`和`multiple-choice-questions`。用户可以通过指定国家代码来访问特定国家或地区的数据。例如，加载阿萨姆地区的注释数据可以使用`annotations['AS']`，而加载阿萨姆地区的问题数据则可以使用`questions['AS']`。数据集中的每个文件都包含JSON格式的数据，用户可以根据需要提取问题、答案及其相关信息。

背景与挑战

背景概述

BLEnD数据集由研究人员于2024年提出，旨在评估大型语言模型（LLMs）在不同文化和语言背景下的日常知识表现。该数据集由52.6k个问答对组成，涵盖16个国家和地区，涉及13种语言，包括阿姆哈拉语、阿萨姆语、阿塞拜疆语等低资源语言。BLEnD的创建填补了现有基准测试的空白，这些基准测试通常局限于单一语言或在线资源，无法全面反映不同地区的日常生活习惯、风俗和文化。通过手工构建的问答对，BLEnD为研究LLMs在跨文化语境中的表现提供了重要工具，推动了多语言和跨文化自然语言处理领域的发展。

当前挑战

BLEnD数据集在构建和应用过程中面临多重挑战。首先，数据集的构建需要深入理解不同文化的日常知识，这要求研究人员具备广泛的文化背景知识和语言能力。其次，低资源语言的标注和验证尤为困难，因为这些语言缺乏足够的在线资源和语言工具支持。此外，LLMs在低资源语言上的表现显著低于高资源语言，这进一步加剧了模型评估的复杂性。最后，确保数据集的多样性和代表性也是一个重要挑战，尤其是在涵盖多个国家和地区的文化差异时，如何平衡数据分布和避免偏见成为关键问题。

常用场景

经典使用场景

BLEnD数据集在评估大型语言模型（LLMs）的跨文化日常知识方面具有重要应用。该数据集通过包含来自16个国家和地区的52.6k个问答对，覆盖13种语言，特别是低资源语言如阿姆哈拉语、阿萨姆语和阿塞拜疆语，能够有效测试LLMs在不同文化背景下的表现。经典使用场景包括通过短答题和选择题形式，评估模型在特定文化背景下的知识准确性和文化敏感性。

衍生相关工作

BLEnD数据集的推出催生了一系列相关研究，特别是在多语言和跨文化自然语言处理领域。例如，基于BLEnD的研究工作探讨了LLMs在低资源语言中的表现差异，提出了改进模型在跨文化环境中的知识获取和推理能力的方法。此外，该数据集还激发了更多关于文化敏感性和多语言模型优化的研究，推动了该领域的进一步发展。

数据集最近研究