five

sambanovasystems/x-self-instruct-seed-32

收藏
Hugging Face2023-05-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sambanovasystems/x-self-instruct-seed-32
下载链接
链接失效反馈
官方服务:
资源简介:
xOA22 - Multilingual Prompts from OpenAssistant数据集包含32个从self-instruct-seed数据集中筛选出的提示,这些提示被翻译成阿拉伯语、英语、西班牙语、法语、印地语和中文。数据集的构建目的是用于评估BLOOMChat模型的多语言能力。筛选标准包括:适用于聊天场景、易于理解、避免代码或特定领域语言、避免简单数值响应、避免翻译请求、避免难以翻译的英语特定语言结构以及避免重复或过于相似的提示。翻译过程中,志愿者根据文化和语言差异进行了适当的替换和修改。
提供机构:
sambanovasystems
原始信息汇总

数据集概述

数据集名称: x-self-instruct-seed-32

数据集来源: 从self-instruct-seed数据集中筛选出的32个提示。

数据集目的: 用于评估BLOOMChat模型的多语言能力。

数据集内容

语言: 包含阿拉伯语(ar)、英语(en)、西班牙语(es)、法语(fr)、印地语(hi)、中文(zh)。

数据结构:

  • 数据字段: prompt,手动翻译的提示文本。
  • 数据分割: 共有6个分割,每个语言一个,每个分割包含32个实例。

翻译细节

  • 法语: 提示20中,“come up with”翻译为“provide”。
  • 印地语: 提示12中,将西雅图城市替换为印度著名目的地Manali。
  • 中文: 提示20中,删除幽默回答以使其更符合中文语境;提示24中,重新表述为“用幽默来克服尴尬”以使其更自然。

数据集统计

  • 下载大小: 18710字节
  • 数据集大小: 17146字节
  • 各语言数据统计:
    • 阿拉伯语(ar): 3010字节, 32实例
    • 英语(en): 2145字节, 32实例
    • 西班牙语(es): 2474字节, 32实例
    • 法语(fr): 2493字节, 32实例
    • 印地语(hi): 5114字节, 32实例
    • 中文(zh): 1910字节, 32实例
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作