five

aseifert/merlin

收藏
hugging_face2022-10-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/aseifert/merlin
下载链接
链接失效反馈
资源简介:
MERLIN语料库是一个为捷克语、德语和意大利语设计的书面学习者语料库,旨在通过真实的学习者数据展示欧洲语言共同参考框架(CEFR)。语料库包含了在标准化语言认证中产生的学习者文本,涵盖了CEFR的A1-C1级别。MERLIN的注释方案包括广泛的语言特征,为研究人员提供了跨多个熟练水平的学习者表现和进展的具体示例。
提供机构:
aseifert
原始信息汇总

MERLIN corpus 概述

基本信息

  • 名称: MERLIN corpus
  • 多语言性: 翻译(包含语言:捷克语、德语、意大利语)
  • 任务类别: 条件文本生成
  • 具体任务: 机器翻译
  • 大小: 未知

描述

  • 用途: 用于展示《欧洲共同语言参考框架》(CEFR) 的书面学习者语料库,涵盖捷克语、德语和意大利语。
  • 内容: 包含在标准化语言认证中产生的学习者文本,覆盖CEFR级别A1至C1。
  • 特点: 提供广泛的语料库注释方案,包括多种语言特征,以便研究者观察学习者在不同熟练度级别的表现和进步。

访问信息

用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

Awesome JSON Datasets

一个精选的无需认证的JSON数据集列表。

github 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。

huggingface 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录