SnehitVaddi/Idiomology_Lama2_7B_Chat
收藏Hugging Face2024-03-29 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/SnehitVaddi/Idiomology_Lama2_7B_Chat
下载链接
链接失效反馈官方服务:
资源简介:
该数据集旨在训练和评估语言模型,特别是提高它们在句子中识别习语表达的能力,以增强自然语言理解系统在不同上下文中识别习语的能力。数据集包含训练集和测试集,分别占80%和20%,每个条目包括包含习语的句子和习语注释。
该数据集旨在训练和评估语言模型,特别是提高它们在句子中识别习语表达的能力,以增强自然语言理解系统在不同上下文中识别习语的能力。数据集包含训练集和测试集,分别占80%和20%,每个条目包括包含习语的句子和习语注释。
提供机构:
SnehitVaddi
原始信息汇总
数据集概述
数据集名称
Idiomology - Idiom Detection Dataset
数据集目的
该数据集旨在训练和评估语言模型,特别是提高其在句子中识别习语表达的能力,以增强自然语言理解系统在不同上下文中识别习语的能力。
数据集结构
- 数据文件:
- 训练集:
train.csv - 测试集:
test.csv
- 训练集:
- 数据字段:
sentence_with_idiom:包含习语的句子。idiom_annotation:句子中习语的标注,采用多种表述以反映自然语言的多样性。
数据分割
- 训练集:占数据集的80%,用于模型训练。
- 测试集:占数据集的20%,用于模型评估。
使用指南
- 模型训练:使用训练集对语言模型进行微调,以准确预测给定句子上下文中的习语。
- 模型评估:使用测试集评估模型识别习语的能力,可使用准确率或F1分数等标准指标进行评估。
数据集创建
- 来源:数据集基于一个习语及其示例句子的编译列表生成,旨在反映这些表达式的实际应用。
- 筛选理由:由于自然语言处理中对上下文和比喻语言的细微理解需求,该数据集专注于习语检测的挑战。
数据集挑战
- 习语变异性:习语的比喻性和上下文依赖性使用引入了在不同句子中一致识别它们的挑战。
- 标注多样性:数据集中习语标注的多样性表述要求模型能够跨不同表达方式进行泛化。



