five

CKnowEdit

收藏
Hugging Face2024-09-10 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/zjunlp/CKnowEdit
下载链接
链接失效反馈
官方服务:
资源简介:
CKnowEdit是一个高质量的中文知识编辑数据集,专门为大语言模型设计,涵盖中文文学知识、中文语言知识、中文地理知识和Ruozhiba四个类别。数据集详细描述了每个数据字段的含义,包括prompt、target_old、target_new等,并提供了具体的示例。数据集的目的是帮助大语言模型更深入地理解和编辑中文知识,提供了丰富的资源和评估方法。

CKnowEdit is a high-quality Chinese knowledge editing dataset specifically tailored for large language models (LLMs), comprising four categories: Chinese literary knowledge, Chinese linguistic knowledge, Chinese geographical knowledge, and Ruozhiba. The dataset provides detailed explanations for the semantics of each data field, including prompt, target_old, target_new and other relevant fields, and includes concrete illustrative examples. The core objective of this dataset is to assist large language models in gaining a deeper understanding of and performing knowledge editing on Chinese knowledge, while also providing abundant resources and evaluation methods.
提供机构:
ZJUNLP
创建时间:
2024-09-10
原始信息汇总

CKnowEdit: A Chinese Knowledge Editing Dataset for Large Language Models

Dataset Structure

CKnowEdit is categorized into 4 classes:

  • Chinese literary knowledge
  • Chinese linguistic knowledge
  • Chinese geographical knowledge
  • Chinese Ruozhiba

The file structure is as follows:

CknowEdit ├── Chinese Literary Knowledge │   ├── Ancient Poetry │   ├── Proverbs │   └── Idioms ├── Chinese Linguistic Knowledge │   ├── Phonetic Notation │   └── Classical Chinese ├── Chinese Geographical Knowledge └── Ruozhiba

Data types and their distribution:

type quantity
Ancient Poetry 134
Proverbs 230
Idioms 101
Phonetic Notation 153
Classical Chinese 234
Chinese Geographical Knowledge 105
Ruozhiba 803

Dataset Description

CKnowEdit is a high-quality Chinese-language dataset for knowledge editing, sourced from Chinese knowledge bases. The data fields are:

python "prompt": str "target_old": str "target_new": str "portability_prompt": list or None "portability_answer": list or None "locality_prompt": list or None "locality_answer": list or None "rephrase": list

Examples

Chinese Literary Knowledge

json { "prompt": "请填写下列古诗文的后一句:克己复礼为仁。一日克己复礼,", "target_old": "其斯而已矣。", "target_new": "天下归仁焉。", "portability": [ { "prompt": "请填写下列古诗文的前一句:天下归仁焉。", "answer": "克己复礼为仁。一日克己复礼," } ], "rephrase": [ "下列古诗文的接下来一句是什么?克己复礼为仁。一日克己复礼,", "古诗文中,“克己复礼为仁。一日克己复礼,”的下一句是什么?", "完成这段古诗:克己复礼为仁。一日克己复礼,______。" ] }

Chinese Linguistic Knowledge

json { "prompt": "请给下面的字注音:莘庄", "target_old": "莘庄的拼音是:“shēn zhuāng”", "target_new": "莘庄的注音是:xīn zhuāng", "portability": [ { "prompt": "请给下面的字注音:细莘", "answer": "细莘的注音是:xì xīn" } ], "locality": [ { "prompt": "请给下面的字注音:莘莘学子", "answer": "莘莘学子的注音是:shēn shēn xué zǐ" } ], "rephrase": [ "请问莘庄的正确拼音是什么?", "莘庄正确的注音怎么写?", "请注音:莘庄。", "莘庄的拼音应该怎么表示?" ] }

Chinese Geographical Knowledge

json { "prompt": "请说出中国领土的最南端", "target_old": "中国的最南端位于海南省三沙市永兴岛,地处北纬15°03′、东经112°47′。", "target_new": "曾母暗沙", "portability": [ { "prompt": "中国最南端的地理位置会影响哪些海洋?", "answer": "南海" }, { "prompt": "位于中国最南端的地点在哪个省的管辖之下?", "answer": "海南省" }, { "prompt": "中国最南端的地点属于哪个市?", "answer": "三沙市" } ], "rephrase": [ "中国最南端是哪里?", "中国领土南端的最远点在哪?" ] }

Ruozhiba

json { "prompt": "蓝牙耳机坏了,去医院挂牙科还是耳科?", "target_old": "如果你的蓝牙耳机有问题,你应该去耳科或者听力诊所。", "target_new": "如果您的蓝牙耳机出现问题,这实际上涉及的是电子设备维修,而不是医疗问题。因此,您应该去电子产品维修店或联系耳机厂商的客服,而不是去医院挂耳科或牙科。医院的科室是用来处理人体健康问题的,与电子产品维修无关。", "portability": [ { "prompt": "我的无线耳机不工作了,我应该去哪里修理?", "answer": "无线耳机的问题应该去电子产品维修店或联系耳机的生产厂家客服进行咨询和修理。" }, { "prompt": "手表无法充电,我需要去医院看病吗?", "answer": "手表无法充电这是电子产品的问题,需要去电子维修点或联系生产厂商,并非医疗问题。" }, { "prompt": "我的手机屏幕碎了,应该去牙科还是手机维修店?", "answer": "手机屏幕碎了应该去手机维修店进行修理,这与牙科无关。" } ], "locality": [ { "prompt": "如果我耳朵痛,我应该去哪里?", "answer": "如果耳朵疼痛,您应该去医院的耳科进行检查和治疗。" }, { "prompt": "牙齿疼痛需要去哪个科室?", "answer": "牙齿疼痛应该去医院的牙科进行检查和治疗。" } ], "rephrase": [ "蓝牙耳机损坏不工作了,我是应该去牙科还是耳科处理?", "我的耳机坏了,这种情况我是应该预约牙科还是耳科?" ] }

Evaluation

Evaluation metrics include:

  • Edit_acc
  • portability
  • locality
  • fluency

Evaluation methods:

  • Word-level overlap metric: Using rouge-l to compare rewrite_ans and target_new, portability_ans and portabilitypor_hopground_truth, locality_ans and localityloc_hopground_truth.
  • Semantic similarity: Using cosine similarity of embeddings from paraphrase-multilingual-MiniLM-L12-v2.

Baseline

Results of 4 knowledge editing methods on Qwen-7b-chat/Baichuan2-7b-chat:

Knowledge Type Method Edit Success Portability Locality Fluency
Ancient Poetry FT-M 42.10 / 55.32 32.50 / 31.78 - 387.81 / 400.52
AdaLoRA 80.38 / 78.77 32.23 / 33.19 - 419.92 / 430.99
ROME 54.87 / 36.12 33.12 / 28.64 - 464.68 / 455.98
GRACE 39.40 / 40.38 31.83 / 31.84 - 408.47 / 336.47
Proverbs FT-M 44.53 / 58.30 48.26 / 49.26 - 438.17 / 383.77
AdaLoRA 64.62 / 67.06 49.66 / 52.69 - 397.37 / 415.88
ROME 63.96 / 59.31 47.99 / 50.31 - 445.30 / 431.78
GRACE 44.22 / 46.30 48.41 / 49.76 - 395.65 / 336.65
Idioms FT-M 49.01 / 60.39 51.94 / 53.06 - 446.24 / 407.95
AdaLoRA 66.29 / 74.90 55.26 / 56.63 - 430.25 / 432.79
ROME 64.79 / 60.81 52.47 / 56.30 - 457.38 / 441.57
GRACE 47.58 / 52.26 52.50 / 53.06 - 408.56 / 381.15
Phonetic Notation FT-M 78.04 / 68.34 72.28 / 64.46 82.17 / 61.29 475.13 / 387.05
AdaLoRA 88.21 / 80.87 76.37 / 67.36 74.94 / 62.62 404.06 / 469.75
ROME 77.15 / 65.58 73.14 / 61.88 80.52 / 62.19 486.19 / 462.08
GRACE 76.63 / 67.04 72.71 / 66.36 81.96 / 65.41 479.89 / 458.02
Classical Chinese FT-M 42.79 / 73.22 48.25 / 53.58 57.78 / 33.83 430.29 / 269.34
AdaLoRA 65.17 / 55.89 52.32 / 45.94 44.57 / 44.13 286.61 / 330.09
ROME 39.28 / 28.06 50.00 / 35.37 50.20 / 35.37 431.48 / 422.80
GRACE 37.92 / 32.97 50.63 / 35.67 56.55 / 52.90 418.28 / 408.85
Geographical Knowledge FT-M 47.30 / 73.02 45.75 / 47.15 - 448.90 / 260.36
AdaLoRA 70.31 / 72.44 52.60 / 55.14 - 313.19 / 377.91
ROME 52.81 / 49.64 43.89 / 42.85 - 402.51 / 408.85
GRACE 46.53 / 53.38 43.59 / 42.85 - 408.97 / 311.22
Ruozhiba FT-M 45.25 / 43.22 57.79 / 57.39 63.92 / 64.09 333.98 / 414.30
AdaLoRA 71.07 / 51.54 62.25 / 55.65 66.57 / 66.13 428.94 / 441.41
ROME 68.42 / 62.88 60.35 / 61.23 68.91 / 70.19 413.37 / 428.03
GRACE 45.16 / 39.83 56.47 / 56.86 63.41 / 63.97 452.39 / 442.60
搜集汇总
数据集介绍
main_image_url
构建方式
CKnowEdit数据集的构建基于中文知识库,涵盖了文学、语言学、地理学及Ruozhiba四大类知识。每类知识进一步细分为多个子类,如文学知识包括古诗、谚语和成语,语言学知识则涉及注音和文言文。数据集的构建过程严格遵循高质量标准,确保数据的准确性和代表性,旨在为大型语言模型的中文知识修正提供坚实基础。
特点
CKnowEdit数据集以其丰富的中文知识内容和多样化的数据类型著称。数据集不仅包含传统的中文文学和语言学知识,还涵盖了地理知识和Ruozhiba等现代知识领域。每个数据条目均包含原始提示、错误回答、正确答案及相关扩展提示,便于模型进行知识修正和扩展学习。此外,数据集的多样性和深度使其成为评估和改进中文语言模型的理想工具。
使用方法
使用CKnowEdit数据集时,用户可通过提供的`CKnowEditDataset`类轻松加载数据。数据集的结构清晰,包含提示、新旧目标答案、可移植性和局部性提示等字段。用户可通过运行提供的脚本,结合不同的知识编辑方法(如FT、ROME、GRACE和LoRA)进行模型训练和评估。数据集的评估指标包括编辑准确率、可移植性、局部性和流畅性,确保模型在实际应用中的表现得到全面衡量。
背景与挑战
背景概述
CKnowEdit数据集由浙江大学自然语言处理实验室(ZJUNLP)开发,旨在为大语言模型(LLMs)的中文知识编辑任务提供高质量的数据支持。该数据集涵盖了中文文学知识、语言学知识、地理知识以及Ruozhiba等多个领域,数据来源于中文知识库,具有高度的中文语言特性。CKnowEdit的创建时间为2023年,其核心研究问题在于如何通过知识编辑任务提升LLMs对中文知识的理解与修正能力。该数据集为中文自然语言处理领域的研究提供了重要的基准资源,推动了LLMs在中文知识修正方面的技术进步。
当前挑战
CKnowEdit数据集面临的挑战主要体现在两个方面。首先,在领域问题方面,中文知识的多样性和复杂性使得LLMs在理解和修正中文知识时面临巨大挑战,尤其是在处理古文、成语、地理知识等特定领域时,模型需要具备高度的语义理解和上下文推理能力。其次,在数据集构建过程中,如何确保数据的准确性和代表性是一个关键挑战。由于中文知识的广泛性和动态性,数据收集和标注过程中需要克服知识更新频繁、标注标准不统一等问题。此外,如何设计有效的评估指标以全面衡量知识编辑的效果,也是该数据集面临的重要挑战之一。
常用场景
经典使用场景
CKnowEdit数据集专为中文知识编辑任务设计,涵盖了古诗文、谚语、成语、语音标注、文言文、地理知识及日常知识问答等多个领域。其经典使用场景包括评估和优化大型语言模型在中文知识理解与生成任务中的表现。通过提供错误的模型输出和正确的答案,CKnowEdit能够帮助研究者深入分析模型在中文语境下的知识修正能力,从而提升模型的知识准确性和语言理解深度。
衍生相关工作
CKnowEdit数据集的发布催生了一系列相关研究工作,尤其是在中文知识编辑和模型优化领域。基于该数据集,研究者提出了多种知识编辑方法,如FT、ROME、GRACE和LoRA等,这些方法在中文知识修正任务中表现出色。此外,CKnowEdit还推动了中文知识迁移和局部性保持的研究,为中文自然语言处理领域提供了新的研究方向。这些工作不仅提升了模型在中文知识编辑任务中的表现,也为其他语言的知识编辑研究提供了借鉴。
数据集最近研究
最新研究方向
近年来,随着大规模语言模型(LLMs)在中文处理领域的广泛应用,CKnowEdit数据集的研究方向主要集中在如何提升模型对中文知识的理解和修正能力。该数据集通过涵盖中国文学、语言学、地理知识及Ruozhiba等多个领域,为研究者提供了一个全面的中文知识编辑基准。前沿研究聚焦于如何通过知识编辑技术,如FT、ROME、GRACE和LoRA等方法,有效修正模型中的知识错误,并评估其在不同知识类型上的表现。这些研究不仅推动了中文语言模型的知识更新能力,还为模型在实际应用中的知识准确性和鲁棒性提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作