five

DINER|自然语言处理数据集|机器学习数据集

收藏
arXiv2024-06-07 更新2024-06-21 收录
自然语言处理
机器学习
下载链接:
https://github.com/Jumpy-pku/DiNeR
下载链接
链接失效反馈
资源简介:
DINER是一个大规模的真实中文数据集,由北京大学王选计算机技术研究所创建,旨在通过识别菜名中的食物、动作和口味组合来评估组合泛化能力。该数据集包含3,803种菜名和223,581条对应的食谱,涉及丰富的语言现象如指代、省略和歧义。创建过程中,数据集通过最大复合分布差异(TMCD)方法进行分割,以确保训练和测试集的分布差异最大化。DINER数据集的应用领域主要集中在自然语言处理和机器学习,特别是在菜名识别和组合泛化能力的评估上,为模型提供了挑战性的任务和丰富的语言现象分析。
提供机构:
北京大学王选计算机技术研究所
创建时间:
2024-06-07
AI搜集汇总
数据集介绍
main_image_url
构建方式
DINER数据集基于大规模的中文食谱语料库XIACHUFANG构建,通过收集和清洗食谱中的(指令, 菜名)对,确保数据的真实性和多样性。数据集包含3,811道菜和228,114条食谱,涵盖丰富的语言现象如指代、省略和歧义。通过最大化复合分布差异的TMCD方法进行数据分割,确保训练和测试集在复合分布上具有显著差异,从而提升数据集在组合泛化任务中的挑战性。
特点
DINER数据集的显著特点在于其大规模的真实性和多样性,涵盖了多种语言现象和组合形式。数据集不仅包含丰富的食材、动作和口味组合,还通过TMCD分割方法确保了训练和测试集在复合分布上的显著差异,从而提升了组合泛化任务的难度。此外,数据集还提供了基于T5和大型语言模型的强基线方法,为研究组合泛化提供了有力的工具。
使用方法
DINER数据集适用于评估模型在组合泛化任务中的表现,特别是菜名识别任务。研究者可以使用数据集中的食谱指令来训练模型,并通过预测菜名来评估模型的组合泛化能力。数据集提供了基于T5的序列到序列模型和大型语言模型的基线方法,研究者可以在此基础上进行进一步的模型优化和实验。此外,数据集的TMCD分割方法也为研究者提供了不同分布偏移水平下的评估能力,有助于深入理解模型的泛化性能。
背景与挑战
背景概述
在自然语言处理领域,组合泛化能力是评估模型理解和生成新组合结构的重要指标。现有的组合泛化数据集多为人工合成,缺乏自然语言的多样性。为了更好地研究组合泛化,特别是语言现象和组合多样性,北京大学王选计算机研究所的Chengang Hu、Xiao Liu和Yansong Feng等人提出了DIsh NamE Recognition (DINER)任务,并创建了一个大规模的真实中文数据集。该数据集包含3,811种菜品和228,114条食谱,涉及丰富的语言现象如指代、省略和歧义。DINER数据集的提出不仅为组合泛化研究提供了新的挑战,也为相关领域的研究提供了宝贵的资源。
当前挑战
DINER数据集在构建过程中面临多项挑战。首先,如何从大规模的食谱数据中准确提取菜品名称是一个复杂的问题,因为食谱标题可能包含不相关的描述和表情符号。其次,中文菜品名称通常由食材、动作和口味组合而成,现有的中文分词模型难以准确解析这些多成分词汇。此外,数据集的分割需要考虑组合泛化的多样性,确保训练集和测试集在组合分布上具有足够的差异。这些挑战不仅考验了数据处理的技术,也对模型的组合泛化能力提出了更高的要求。
常用场景
经典使用场景
DINER数据集的经典使用场景在于评估模型在组合泛化任务中的表现,特别是在处理自然语言变异和多样化的组合形式时。通过提供大量的真实中文菜谱数据,模型需要根据菜谱指令预测出菜名,这些菜名通常由食物、动作和口味三种成分组合而成。这种任务不仅要求模型具备总结和抽象的能力,还需要处理如指代、省略和歧义等语言现象。
解决学术问题
DINER数据集解决了现有组合泛化数据集在自然语言变异和数据规模上的不足。通过提供大规模、多样化的真实中文菜谱数据,该数据集为研究组合泛化提供了新的挑战和基准。这不仅有助于推动自然语言处理领域的发展,还为理解人类语言的组合能力提供了宝贵的资源。
衍生相关工作
基于DINER数据集,研究者们开发了多种基线方法,如使用T5模型进行微调和持续预训练,以及利用GPT-3.5进行上下文学习。这些方法不仅提升了模型在组合泛化任务中的表现,还为后续研究提供了新的思路和方法。未来,这些工作有望进一步推动自然语言处理技术在实际应用中的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集