five

SnehitVaddi/Idiomology_Lama2_7B_Chat

收藏
Hugging Face2024-03-29 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/SnehitVaddi/Idiomology_Lama2_7B_Chat
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集旨在训练和评估语言模型,特别是提高它们在句子中识别习语表达的能力,以增强自然语言理解系统在不同上下文中识别习语的能力。数据集包含训练集和测试集,分别占80%和20%,每个条目包括包含习语的句子和习语注释。

该数据集旨在训练和评估语言模型,特别是提高它们在句子中识别习语表达的能力,以增强自然语言理解系统在不同上下文中识别习语的能力。数据集包含训练集和测试集,分别占80%和20%,每个条目包括包含习语的句子和习语注释。
提供机构:
SnehitVaddi
原始信息汇总

数据集概述

数据集名称

Idiomology - Idiom Detection Dataset

数据集目的

该数据集旨在训练和评估语言模型,特别是提高其在句子中识别习语表达的能力,以增强自然语言理解系统在不同上下文中识别习语的能力。

数据集结构

  • 数据文件
    • 训练集:train.csv
    • 测试集:test.csv
  • 数据字段
    • sentence_with_idiom:包含习语的句子。
    • idiom_annotation:句子中习语的标注,采用多种表述以反映自然语言的多样性。

数据分割

  • 训练集:占数据集的80%,用于模型训练。
  • 测试集:占数据集的20%,用于模型评估。

使用指南

  • 模型训练:使用训练集对语言模型进行微调,以准确预测给定句子上下文中的习语。
  • 模型评估:使用测试集评估模型识别习语的能力,可使用准确率或F1分数等标准指标进行评估。

数据集创建

  • 来源:数据集基于一个习语及其示例句子的编译列表生成,旨在反映这些表达式的实际应用。
  • 筛选理由:由于自然语言处理中对上下文和比喻语言的细微理解需求,该数据集专注于习语检测的挑战。

数据集挑战

  • 习语变异性:习语的比喻性和上下文依赖性使用引入了在不同句子中一致识别它们的挑战。
  • 标注多样性:数据集中习语标注的多样性表述要求模型能够跨不同表达方式进行泛化。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作