five

CMDAG|中文隐喻数据集|自然语言处理数据集

收藏
arXiv2024-02-21 更新2024-06-21 收录
中文隐喻
自然语言处理
下载链接:
https://github.com/JasonShao55/Chinese_Metaphor_Explanation
下载链接
链接失效反馈
资源简介:
CMDAG是一个由香港科技大学等机构合作创建的大型中文隐喻数据集,包含约28,000条从多种中文文学来源(如诗歌、散文、歌词等)提取的句子。该数据集特别之处在于每条隐喻句子都附带有其对应的‘喻意’(GROUNDS)。创建过程中,研究团队利用了专业的标注者进行精细标注,确保了数据的质量和一致性。CMDAG数据集主要用于支持中文隐喻生成的研究,特别是在机器学习和自然语言处理领域,旨在提高模型生成隐喻句子的创造性和流畅性。
提供机构:
香港科技大学
创建时间:
2024-02-21
AI搜集汇总
数据集介绍
main_image_url
构建方式
CMDAG数据集的构建过程始于从广泛的汉语文学资源中收集约153,000条可能包含隐喻的句子,涵盖散文、诗歌、歌词等多种文体。通过应用一系列启发式规则,如检测句子中是否包含特定的比喻词汇或通过依赖解析识别主语和宾语之间的低相关性,筛选出潜在的隐喻句子。随后,数据集经过两轮标注:初步标注由20名中国大学生完成,识别出真正的隐喻并标注出潜在的本体和喻体;精细标注则由具有汉语文学背景的母语者完成,进一步精确定位隐喻的喻意。为确保标注的一致性和准确性,每个数据样本至少由三名标注者评估。
特点
CMDAG数据集的一个显著特点是其包含了约28,000条来自汉语文学的隐喻句子,每条句子都详细标注了本体、喻体和喻意。这种三元组标注方式不仅增强了数据集的实用性,还为隐喻生成任务提供了丰富的上下文信息。此外,CMDAG特别强调了喻意(GROUND)的作用,将其作为隐喻生成的核心要素,突破了传统隐喻生成仅依赖本体和喻体的局限。这种设计使得CMDAG在推动汉语隐喻研究方面具有独特的价值,尤其是在提升隐喻生成的流畅性和创造性方面。
使用方法
CMDAG数据集的使用方法主要围绕隐喻生成任务展开,特别是在结合Chain-of-Thought(CoT)提示技术的应用中。用户可以通过两种主要任务来利用该数据集:一是给定本体和喻体,生成相应的喻意;二是给定本体和喻意,生成合适的喻体。通过多提示提示技术,用户可以利用数据集中的标注示例进行少样本学习,进而生成符合语境的隐喻句子。此外,CMDAG还支持对生成隐喻的评估,用户可以通过专家级的人工评估来衡量生成隐喻的清晰度、创造性和表达的真实性。
背景与挑战
背景概述
CMDAG(Chinese Metaphor Dataset with Annotated Grounds as CoT)是一个专注于中文隐喻生成的大规模高质量标注语料库,由来自香港科技大学、加州大学圣地亚哥分校、麻省理工学院等多家知名机构的研究人员共同开发。该数据集于2024年发布,收录了约28,000条来自诗歌、散文、歌词等多种中文文学形式的隐喻句子。CMDAG的核心创新在于引入了“喻意”(GROUND)作为隐喻生成的关键要素,突破了传统隐喻研究中仅关注“本体”(TENOR)和“喻体”(VEHICLE)的局限。通过将“喻意”作为链式思维(Chain of Thought, CoT)的输入,CMDAG显著提升了隐喻生成的流畅性和创造性,为中文隐喻研究提供了重要的数据支持。
当前挑战
CMDAG在构建和应用过程中面临多重挑战。首先,隐喻作为一种复杂的语言现象,其生成和理解依赖于深层次的概念映射,这对模型的语义理解和推理能力提出了极高要求。其次,数据标注的复杂性也是一个重要挑战,CMDAG要求对每个隐喻句子进行精确的“本体”、“喻体”和“喻意”三元组标注,这需要标注者具备深厚的语言学知识和文学素养。此外,隐喻生成的多样性和创造性难以通过传统的自动评估指标衡量,CMDAG依赖于专家级的人工评估,这增加了评估的成本和复杂性。最后,尽管CMDAG在隐喻生成任务中展现了潜力,但如何进一步提升模型在生成新颖且符合语境的隐喻方面的表现,仍是一个亟待解决的问题。
常用场景
经典使用场景
CMDAG数据集在自然语言处理领域中被广泛用于中文隐喻生成任务。通过提供丰富的隐喻句子及其对应的本体、喻体和喻意,该数据集为研究人员提供了一个高质量的资源,用于训练和评估生成模型。特别是在生成具有创造性和流畅性的隐喻句子时,CMDAG通过引入喻意作为Chain-of-Thought(CoT)输入,显著提升了生成模型的表达能力。
实际应用
CMDAG数据集在实际应用中具有广泛的前景,尤其是在智能写作助手、聊天机器人等自然语言生成系统中。通过利用CMDAG中的隐喻数据,这些系统能够生成更加生动、富有表现力的文本,从而提升用户体验。例如,在文学创作、广告文案撰写等领域,CMDAG可以帮助生成更具感染力的隐喻表达,增强文本的吸引力和说服力。此外,该数据集还可用于教育领域,帮助学生更好地理解和运用隐喻这一修辞手法。
衍生相关工作
CMDAG数据集的发布催生了一系列相关研究工作,特别是在中文隐喻生成和隐喻理解领域。基于CMDAG,研究人员开发了多种生成模型,如Belle、Baichuan和Chinese-alpaca-33B,这些模型在生成隐喻句子时表现出色。此外,CMDAG还推动了Chain-of-Thought(CoT)技术在隐喻生成中的应用,相关研究进一步探索了如何通过喻意引导模型生成更具创造性和流畅性的隐喻表达。这些工作不仅丰富了中文隐喻研究的理论框架,还为实际应用提供了新的技术手段。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

NACC

NACC(National Alzheimer's Coordinating Center)数据集包含了来自美国各地的阿尔茨海默病研究中心的临床和神经病理学数据。该数据集主要用于研究阿尔茨海默病和其他相关痴呆症的进展和治疗。数据包括患者的临床评估、认知测试、神经影像学数据、遗传信息和病理学报告等。

naccdata.org 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录