sambanovasystems/x-self-instruct-seed-32
收藏Hugging Face2023-05-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sambanovasystems/x-self-instruct-seed-32
下载链接
链接失效反馈官方服务:
资源简介:
xOA22 - Multilingual Prompts from OpenAssistant数据集包含32个从self-instruct-seed数据集中筛选出的提示,这些提示被翻译成阿拉伯语、英语、西班牙语、法语、印地语和中文。数据集的构建目的是用于评估BLOOMChat模型的多语言能力。筛选标准包括:适用于聊天场景、易于理解、避免代码或特定领域语言、避免简单数值响应、避免翻译请求、避免难以翻译的英语特定语言结构以及避免重复或过于相似的提示。翻译过程中,志愿者根据文化和语言差异进行了适当的替换和修改。
提供机构:
sambanovasystems
原始信息汇总
数据集概述
数据集名称: x-self-instruct-seed-32
数据集来源: 从self-instruct-seed数据集中筛选出的32个提示。
数据集目的: 用于评估BLOOMChat模型的多语言能力。
数据集内容
语言: 包含阿拉伯语(ar)、英语(en)、西班牙语(es)、法语(fr)、印地语(hi)、中文(zh)。
数据结构:
- 数据字段:
prompt,手动翻译的提示文本。 - 数据分割: 共有6个分割,每个语言一个,每个分割包含32个实例。
翻译细节
- 法语: 提示20中,“come up with”翻译为“provide”。
- 印地语: 提示12中,将西雅图城市替换为印度著名目的地Manali。
- 中文: 提示20中,删除幽默回答以使其更符合中文语境;提示24中,重新表述为“用幽默来克服尴尬”以使其更自然。
数据集统计
- 下载大小: 18710字节
- 数据集大小: 17146字节
- 各语言数据统计:
- 阿拉伯语(ar): 3010字节, 32实例
- 英语(en): 2145字节, 32实例
- 西班牙语(es): 2474字节, 32实例
- 法语(fr): 2493字节, 32实例
- 印地语(hi): 5114字节, 32实例
- 中文(zh): 1910字节, 32实例



