five

NewsMet

收藏
github2024-03-20 更新2024-05-31 收录
下载链接:
https://github.com/AxleBlaze3/NewsMet_Metaphor_Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
NewsMet是一个包含当代新闻标题中隐喻的数据集,数据集中的NewsMet.csv文件包含了原始数据,包括候选列、字面候选和隐喻候选等。数据集还提供了测试集和训练验证测试集的标准分割,确保测试集与其他集合没有重叠。

NewsMet is a dataset containing metaphors from contemporary news headlines. The NewsMet.csv file within the dataset includes raw data, such as candidate columns, literal candidates, and metaphorical candidates. The dataset also provides standard splits for the test set and the training-validation-test set, ensuring that the test set does not overlap with the other sets.
创建时间:
2023-05-25
原始信息汇总

NewsMet 数据集概述

数据集组成

  • NewsMet.csv: 包含原始数据,其中candidates列包含前200个候选,literal_candsmetaphorical_cands列包含由隐喻检测模型识别的银标候选,meaning_preserved_cands列包含被识别的金标候选。
  • custom_test_sets目录: 包含论文中提到的测试集1和测试集2。
  • train_val_test_gold_plus目录: 包含标准分割,测试集与其他集合之间无重叠。金标样本通过sample_type列标识。

标签定义

  • Label 1: 隐喻
  • Label 0: 字面意义
搜集汇总
数据集介绍
main_image_url
构建方式
NewsMet数据集的构建过程体现了对新闻标题中隐喻现象的深入挖掘。该数据集通过隐喻检测模型识别出潜在的隐喻候选词,并结合人工标注的金标准候选词,确保了数据的准确性和多样性。数据集的核心部分包括原始数据、银标准候选词和金标准候选词,这些数据经过精心筛选和标注,形成了一个全面且可靠的隐喻研究资源。
特点
NewsMet数据集以其独特的多层次标注体系脱颖而出。数据集不仅包含了隐喻和字面意义的二元标签,还通过银标准和金标准候选词提供了更细致的语义分析。这种多层次的结构使得研究者能够从不同角度深入探讨隐喻的使用和转换。此外,数据集的测试集与训练集、验证集之间严格分离,确保了模型评估的公正性和可靠性。
使用方法
使用NewsMet数据集时,研究者可以通过加载CSV文件直接访问原始数据和标注信息。数据集的标准划分(训练集、验证集和测试集)为模型训练和评估提供了便利。研究者可以根据需要选择使用银标准或金标准候选词进行不同层次的语义分析。此外,数据集中的自定义测试集为特定研究问题提供了额外的验证资源,进一步增强了研究的灵活性和深度。
背景与挑战
背景概述
NewsMet数据集由ACL 2023会议发布,专注于新闻标题中的隐喻现象研究。该数据集由一系列研究人员精心构建,旨在提供一种全面的资源,用于分析和理解当代新闻标题中的隐喻使用。数据集的核心研究问题在于如何准确识别和分类新闻标题中的隐喻表达,以及这些表达如何影响信息的传递和接收。NewsMet的发布为自然语言处理领域,特别是隐喻检测和文本理解,提供了重要的数据支持,推动了相关算法和模型的发展。
当前挑战
NewsMet数据集在构建和应用过程中面临多重挑战。首要挑战在于隐喻的识别与分类,由于隐喻的多样性和复杂性,如何准确区分隐喻与字面表达成为一大难题。其次,数据集的构建过程中,如何确保标注的一致性和准确性也是一个关键问题,特别是在处理大量新闻标题时,标注的偏差可能影响模型的训练效果。此外,数据集的多样性和代表性也需进一步优化,以确保其在不同语境和语言风格下的适用性。这些挑战不仅影响了数据集的构建质量,也对后续的隐喻检测研究提出了更高的要求。
常用场景
经典使用场景
NewsMet数据集在自然语言处理领域中被广泛用于隐喻检测和分析。研究人员利用该数据集中的新闻标题数据,训练和评估隐喻识别模型,以区分字面表达和隐喻表达。通过对大量新闻标题的标注和分析,该数据集为隐喻检测任务提供了丰富的训练和测试样本,成为该领域研究的重要资源。
解决学术问题
NewsMet数据集解决了隐喻检测中的关键学术问题,如隐喻与字面表达的自动区分、隐喻的语义转换等。通过提供高质量的标注数据,该数据集帮助研究人员开发更精确的隐喻识别算法,推动了自然语言处理中隐喻理解技术的发展。其意义在于为隐喻研究提供了标准化的数据基础,促进了相关领域的学术进步。
衍生相关工作
基于NewsMet数据集,衍生了一系列经典研究工作,如基于深度学习的隐喻检测模型、隐喻与情感关联分析等。这些研究不仅提升了隐喻检测的准确率,还拓展了隐喻在自然语言处理中的应用范围。例如,一些研究利用该数据集开发了多语言隐喻识别系统,进一步推动了隐喻研究的国际化发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作