alexandrainst/m_truthfulqa

Name: alexandrainst/m_truthfulqa
Creator: alexandrainst
Published: 2023-12-27 20:56:58
License: 暂无描述

Hugging Face2023-12-27 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/alexandrainst/m_truthfulqa

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是TruthfulQA数据集的机器翻译版本，使用GPT-3.5-turbo进行翻译。该数据集由俄勒冈大学创建，最初上传至一个Github仓库。它涵盖了多种语言，包括阿拉伯语、孟加拉语、加泰罗尼亚语、丹麦语、德语、西班牙语、巴斯克语、法语、古吉拉特语、印地语、克罗地亚语、匈牙利语、亚美尼亚语、印度尼西亚语、意大利语、卡纳达语、马拉雅拉姆语、马拉地语、尼泊尔语、荷兰语、葡萄牙语、罗马尼亚语、俄语、斯洛伐克语、塞尔维亚语、瑞典语、泰米尔语、泰卢固语、乌克兰语、越南语和中文。数据集的任务类别为问答，任务ID为多项选择问答，规模类别为10K到100K之间。

提供机构：

alexandrainst

原始信息汇总

多语言TruthfulQA数据集

数据集概述

该数据集是TruthfulQA数据集的机器翻译版本，使用GPT-3.5-turbo进行翻译。该数据集由俄勒冈大学创建，并最初上传至此GitHub仓库。

数据集配置

语言配置:
- 阿拉伯语 (ar)
- 孟加拉语 (bn)
- 加泰罗尼亚语 (ca)
- 丹麦语 (da)
- 德语 (de)
- 西班牙语 (es)
- 巴斯克语 (eu)
- 法语 (fr)
- 古吉拉特语 (gu)
- 印地语 (hi)
- 克罗地亚语 (hr)
- 匈牙利语 (hu)
- 亚美尼亚语 (hy)
- 印度尼西亚语 (id)
- 意大利语 (it)
- 卡纳达语 (kn)
- 马拉雅拉姆语 (ml)
- 马拉地语 (mr)
- 尼泊尔语 (ne)
- 荷兰语 (nl)
- 葡萄牙语 (pt)
- 罗马尼亚语 (ro)
- 俄语 (ru)
- 斯洛伐克语 (sk)
- 塞尔维亚语 (sr)
- 瑞典语 (sv)
- 泰米尔语 (ta)
- 泰卢固语 (te)
- 乌克兰语 (uk)
- 越南语 (vi)
- 中文 (zh)
数据文件路径:
- 每个语言配置下均包含一个验证集 (val)，路径格式为 data/{语言代码}/val.jsonl。

许可

该数据集的许可为 cc-by-nc-4.0。

任务类别

问答 (question-answering)

任务ID

多选题问答 (multiple-choice-qa)

数据集大小

10K<n<100K

引用

如果您在工作中使用了此数据集，请引用以下论文：

bibtex @article{dac2023okapi, title={Okapi: Instruction-tuned Large Language Models in Multiple Languages with Reinforcement Learning from Human Feedback}, author={Dac Lai, Viet and Van Nguyen, Chien and Ngo, Nghia Trung and Nguyen, Thuat and Dernoncourt, Franck and Rossi, Ryan A and Nguyen, Thien Huu}, journal={arXiv e-prints}, pages={arXiv--2307}, year={2023} }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，评估模型在多语言环境下的真实性回答能力至关重要。该数据集基于TruthfulQA基准，通过GPT-3.5-turbo模型进行机器翻译，覆盖了从阿拉伯语到中文的多种语言变体。构建过程中，原始英文问题与答案被系统性地转化为目标语言，确保了跨语言评估的一致性。数据集由俄勒冈大学团队开发，并托管于公开的GitHub仓库，旨在为多语言模型提供真实性评估的标准化工具。

特点

该数据集的核心特点在于其广泛的语言覆盖范围，囊括了超过三十种语言，包括欧洲、亚洲及中东地区的代表性语种。每个语言配置均包含验证集，以JSONL格式存储，便于高效加载与处理。数据集专注于多项选择题问答任务，规模介于一万至十万样本之间，适用于中等规模的多语言模型评估。其设计强调了跨语言真实性评估的均衡性，为研究社区提供了丰富的语言多样性资源。

使用方法

使用该数据集时，研究人员可通过HuggingFace平台直接加载特定语言配置，例如中文版本可调用'zh'配置下的val.jsonl文件。数据集适用于评估多语言模型在真实性问答任务上的表现，用户可基于提供的验证集进行模型测试与比较。在学术应用中，引用相关论文以尊重原创工作，同时遵循CC-BY-NC-4.0许可协议，确保非商业用途的合规性。该数据集为多语言自然语言处理研究提供了便捷的基准测试工具。

背景与挑战

背景概述

在自然语言处理领域，评估大型语言模型的真实性与可靠性已成为一项关键研究议题。由俄勒冈大学研究团队于2023年创建的Multilingual TruthfulQA数据集，正是基于原始TruthfulQA数据集，通过GPT-3.5-turbo进行机器翻译扩展而成。该数据集覆盖阿拉伯语、孟加拉语、中文等38种语言，旨在探究多语言环境下模型生成答案的真实性与准确性，为跨语言人工智能系统的可信度评估提供了重要基准。其核心研究问题聚焦于如何有效衡量多语言模型在避免常见误解与虚假信息方面的能力，对推动负责任人工智能发展具有深远影响。

当前挑战

该数据集致力于解决多语言问答系统中真实性评估的挑战，其核心难题在于如何确保翻译过程不扭曲原始问题的语义细微差别，同时保持跨语言文化背景下的真实性标准一致性。构建过程中面临的主要挑战包括机器翻译可能引入的语言特异性偏差，以及在不同语言中准确捕捉真实与误导性陈述的微妙界限。此外，协调多语言数据质量与规模之间的平衡，并确保评估指标能够公平适用于各种语言变体，亦是数据集构建中需克服的技术障碍。

常用场景

经典使用场景

在自然语言处理领域，多语言真实性问答数据集常被用于评估大型语言模型在跨语言环境下的真实性与准确性表现。该数据集通过机器翻译覆盖了数十种语言，为研究者提供了一个标准化的基准平台，用以测试模型在避免生成虚假或误导性信息方面的能力。经典使用场景包括在多语言问答任务中，系统性地对比不同模型在各类语言上的输出真实性，从而揭示模型在知识表示与语言生成中的潜在偏差。

实际应用

在实际应用层面，该数据集为开发多语言智能助手、搜索引擎及教育工具提供了关键的质量控制依据。企业可利用其评估产品在多种语言中的信息准确性，确保输出的内容符合事实标准，避免传播错误知识。例如，在构建国际化的客户服务聊天机器人时，该数据集能帮助开发者检测并修正模型在非英语语言中可能出现的幻觉或虚构回答，从而提升服务的可靠性与用户信任度。

衍生相关工作

围绕该数据集，学术界衍生了一系列重要的研究工作。例如，基于其构建的多语言评估框架被广泛应用于像Okapi等项目，这些项目专注于通过人类反馈强化学习来优化指令调优模型。相关研究进一步探索了如何利用此类数据改进模型的跨语言泛化能力，并催生了针对低资源语言真实性评估的新方法，为多语言人工智能的伦理与安全发展奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集