five

maxidl/MathInstruct-de

收藏
Hugging Face2024-02-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/maxidl/MathInstruct-de
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是TIGER-Lab/MathInstruct的德语版本,使用DeepL进行翻译(非正式风格)。目前仅限于前56,793个示例。数据集中包含英语和德语的消息内容,每条消息包括内容和角色两个字段。数据集的特征包括源语言、英语消息和德语消息,每条消息包含内容和角色。数据集的分割包括训练集,训练集的大小为87,671,574字节,包含56,793个示例。

该数据集是TIGER-Lab/MathInstruct的德语版本,使用DeepL进行翻译(非正式风格)。目前仅限于前56,793个示例。数据集中包含英语和德语的消息内容,每条消息包括内容和角色两个字段。数据集的特征包括源语言、英语消息和德语消息,每条消息包含内容和角色。数据集的分割包括训练集,训练集的大小为87,671,574字节,包含56,793个示例。
提供机构:
maxidl
原始信息汇总

数据集概述

数据特征

  • source: 数据来源,数据类型为字符串。
  • messages_en: 英文消息列表,包含以下字段:
    • content: 内容,数据类型为字符串。
    • role: 角色,数据类型为字符串。
  • messages_de: 德文消息列表,包含以下字段:
    • content: 内容,数据类型为字符串。
    • role: 角色,数据类型为字符串。

数据分割

  • train: 训练集,包含87671574字节的数据和56793个样本。

数据大小

  • download_size: 下载大小为43803287字节。
  • dataset_size: 数据集大小为87671574字节。

配置

  • default: 默认配置,包含训练集数据文件路径为data/train-*

其他信息

  • 数据集目前仅包含前56793个样本。
  • 语言字符统计:
    • 英文:38793154个字符。
    • 德文:42851569个字符。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作