five

nli_it_collection

收藏
Hugging Face2025-01-29 更新2025-02-10 收录
下载链接:
https://huggingface.co/datasets/ctu-aic/nli_it_collection
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个包含捷克语和英语的自然语言推理(NLI)数据集的集合,主要用于指令调优(instruction tuning)以优化解码器语言模型。数据集包含多个字段,如前提、假设、答案等,并且数据被转换为FLAN风格的模板格式。数据集支持多语言,包括捷克语和英语,并且提供了训练、验证和测试的分割。
提供机构:
AI Center FEE CTU
创建时间:
2025-01-28
搜集汇总
数据集介绍
main_image_url
构建方式
nli_it_collection数据集是由多个捷克语和英语的自然语言推理(NLI)数据集构成,基于FLAN方法转换为指令微调格式。数据集的构建涉及将原始数据集中的证据、假设和答案等字段通过FLAN-like模板进行转换,形成可用于指令微调的输入和输出对。
特点
该数据集的特点在于其多语言性,包含捷克语和英语两种语言的数据,且数据均经过FLAN-like模板转换,适用于对解码型大型语言模型进行指令微调。此外,数据集还包含了原始数据集来源信息,以及数据点是否经过翻译的标识,增强了数据集的透明度和可用性。
使用方法
用户可以直接利用数据集中的conversations字段进行训练,该字段符合Hugging Face Transformers库的要求,可以直接用于指令微调。此外,数据集也提供了适用于训练解码模型的数据格式,尽管这不是其主要目的。在使用时,用户需注意数据集的局限性和潜在偏差。
背景与挑战
背景概述
自然语言推理(NLI)是自然语言处理领域的一项基础任务,旨在判断一个假设与一个前提的关系。nli_it_collection数据集是由布拉格捷克技术大学人工智能中心精心整理的一个多语言NLI数据集,旨在为指令微调(Instruction Tuning)解码器大型语言模型(LLM)提供支持。该数据集基于FLAN方法对英语和捷克语的各种NLI数据集进行了转换,创建于近年来,集合了多个来源的数据集,如FEVER、AVeriTeC、SNLI和ANLI等,涵盖了两种语言:捷克语和英语,遵循cc-by-nc-sa-4.0版权协议。
当前挑战
nli_it_collection数据集在构建过程中面临的主要挑战包括:确保跨语言的一致性和准确性,特别是在翻译过程中可能引入的偏差;同时,由于数据集是基于多个来源整合而成,因此需要解决不同数据集之间的格式统一和兼容性问题。在研究领域问题上,该数据集旨在解决如何更有效地微调LLM以处理NLI任务,这要求数据集在提供丰富多样的语言现象的同时,还需考虑如何避免过拟合特定模板,保证模型的泛化能力。
常用场景
经典使用场景
nli_it_collection数据集是一系列经过FLAN方法格式化的NLI数据集的集合,其经典使用场景在于指令微调(Instruction Tuning)解码器大型语言模型(LLMs)在NLI任务上。用户可利用该数据集中的多语言指令模板,进行监督微调,以提升模型对自然语言推理任务的理解和执行能力。
解决学术问题
该数据集解决了自然语言推理领域缺乏统一格式化训练样本的问题,为学术研究提供了丰富的多语言对齐数据。它使得研究者在进行跨语言的自然语言处理研究时,能够更加方便地对比不同语言间的推理表现,进而推动相关领域的学术发展。
衍生相关工作
基于nli_it_collection数据集,研究者可以开展多种衍生的相关工作,如构建特定领域的定制化NLI模型、探究跨语言模型微调的效果差异、以及开发新的指令微调技术和评估指标等。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作