five

CKnowEdit|大语言模型数据集|中文知识编辑数据集

收藏
huggingface2024-09-10 更新2024-12-12 收录
大语言模型
中文知识编辑
下载链接:
https://huggingface.co/datasets/zjunlp/CKnowEdit
下载链接
链接失效反馈
资源简介:
CKnowEdit是一个高质量的中文知识编辑数据集,专门为大语言模型设计,涵盖中文文学知识、中文语言知识、中文地理知识和Ruozhiba四个类别。数据集详细描述了每个数据字段的含义,包括prompt、target_old、target_new等,并提供了具体的示例。数据集的目的是帮助大语言模型更深入地理解和编辑中文知识,提供了丰富的资源和评估方法。
提供机构:
ZJUNLP
创建时间:
2024-09-10
原始信息汇总

CKnowEdit: A Chinese Knowledge Editing Dataset for Large Language Models

Dataset Structure

CKnowEdit is categorized into 4 classes:

  • Chinese literary knowledge
  • Chinese linguistic knowledge
  • Chinese geographical knowledge
  • Chinese Ruozhiba

The file structure is as follows:

CknowEdit ├── Chinese Literary Knowledge │   ├── Ancient Poetry │   ├── Proverbs │   └── Idioms ├── Chinese Linguistic Knowledge │   ├── Phonetic Notation │   └── Classical Chinese ├── Chinese Geographical Knowledge └── Ruozhiba

Data types and their distribution:

type quantity
Ancient Poetry 134
Proverbs 230
Idioms 101
Phonetic Notation 153
Classical Chinese 234
Chinese Geographical Knowledge 105
Ruozhiba 803

Dataset Description

CKnowEdit is a high-quality Chinese-language dataset for knowledge editing, sourced from Chinese knowledge bases. The data fields are:

python "prompt": str "target_old": str "target_new": str "portability_prompt": list or None "portability_answer": list or None "locality_prompt": list or None "locality_answer": list or None "rephrase": list

Examples

Chinese Literary Knowledge

json { "prompt": "请填写下列古诗文的后一句:克己复礼为仁。一日克己复礼,", "target_old": "其斯而已矣。", "target_new": "天下归仁焉。", "portability": [ { "prompt": "请填写下列古诗文的前一句:天下归仁焉。", "answer": "克己复礼为仁。一日克己复礼," } ], "rephrase": [ "下列古诗文的接下来一句是什么?克己复礼为仁。一日克己复礼,", "古诗文中,“克己复礼为仁。一日克己复礼,”的下一句是什么?", "完成这段古诗:克己复礼为仁。一日克己复礼,______。" ] }

Chinese Linguistic Knowledge

json { "prompt": "请给下面的字注音:莘庄", "target_old": "莘庄的拼音是:“shēn zhuāng”", "target_new": "莘庄的注音是:xīn zhuāng", "portability": [ { "prompt": "请给下面的字注音:细莘", "answer": "细莘的注音是:xì xīn" } ], "locality": [ { "prompt": "请给下面的字注音:莘莘学子", "answer": "莘莘学子的注音是:shēn shēn xué zǐ" } ], "rephrase": [ "请问莘庄的正确拼音是什么?", "莘庄正确的注音怎么写?", "请注音:莘庄。", "莘庄的拼音应该怎么表示?" ] }

Chinese Geographical Knowledge

json { "prompt": "请说出中国领土的最南端", "target_old": "中国的最南端位于海南省三沙市永兴岛,地处北纬15°03′、东经112°47′。", "target_new": "曾母暗沙", "portability": [ { "prompt": "中国最南端的地理位置会影响哪些海洋?", "answer": "南海" }, { "prompt": "位于中国最南端的地点在哪个省的管辖之下?", "answer": "海南省" }, { "prompt": "中国最南端的地点属于哪个市?", "answer": "三沙市" } ], "rephrase": [ "中国最南端是哪里?", "中国领土南端的最远点在哪?" ] }

Ruozhiba

json { "prompt": "蓝牙耳机坏了,去医院挂牙科还是耳科?", "target_old": "如果你的蓝牙耳机有问题,你应该去耳科或者听力诊所。", "target_new": "如果您的蓝牙耳机出现问题,这实际上涉及的是电子设备维修,而不是医疗问题。因此,您应该去电子产品维修店或联系耳机厂商的客服,而不是去医院挂耳科或牙科。医院的科室是用来处理人体健康问题的,与电子产品维修无关。", "portability": [ { "prompt": "我的无线耳机不工作了,我应该去哪里修理?", "answer": "无线耳机的问题应该去电子产品维修店或联系耳机的生产厂家客服进行咨询和修理。" }, { "prompt": "手表无法充电,我需要去医院看病吗?", "answer": "手表无法充电这是电子产品的问题,需要去电子维修点或联系生产厂商,并非医疗问题。" }, { "prompt": "我的手机屏幕碎了,应该去牙科还是手机维修店?", "answer": "手机屏幕碎了应该去手机维修店进行修理,这与牙科无关。" } ], "locality": [ { "prompt": "如果我耳朵痛,我应该去哪里?", "answer": "如果耳朵疼痛,您应该去医院的耳科进行检查和治疗。" }, { "prompt": "牙齿疼痛需要去哪个科室?", "answer": "牙齿疼痛应该去医院的牙科进行检查和治疗。" } ], "rephrase": [ "蓝牙耳机损坏不工作了,我是应该去牙科还是耳科处理?", "我的耳机坏了,这种情况我是应该预约牙科还是耳科?" ] }

Evaluation

Evaluation metrics include:

  • Edit_acc
  • portability
  • locality
  • fluency

Evaluation methods:

  • Word-level overlap metric: Using rouge-l to compare rewrite_ans and target_new, portability_ans and portabilitypor_hopground_truth, locality_ans and localityloc_hopground_truth.
  • Semantic similarity: Using cosine similarity of embeddings from paraphrase-multilingual-MiniLM-L12-v2.

Baseline

Results of 4 knowledge editing methods on Qwen-7b-chat/Baichuan2-7b-chat:

Knowledge Type Method Edit Success Portability Locality Fluency
Ancient Poetry FT-M 42.10 / 55.32 32.50 / 31.78 - 387.81 / 400.52
AdaLoRA 80.38 / 78.77 32.23 / 33.19 - 419.92 / 430.99
ROME 54.87 / 36.12 33.12 / 28.64 - 464.68 / 455.98
GRACE 39.40 / 40.38 31.83 / 31.84 - 408.47 / 336.47
Proverbs FT-M 44.53 / 58.30 48.26 / 49.26 - 438.17 / 383.77
AdaLoRA 64.62 / 67.06 49.66 / 52.69 - 397.37 / 415.88
ROME 63.96 / 59.31 47.99 / 50.31 - 445.30 / 431.78
GRACE 44.22 / 46.30 48.41 / 49.76 - 395.65 / 336.65
Idioms FT-M 49.01 / 60.39 51.94 / 53.06 - 446.24 / 407.95
AdaLoRA 66.29 / 74.90 55.26 / 56.63 - 430.25 / 432.79
ROME 64.79 / 60.81 52.47 / 56.30 - 457.38 / 441.57
GRACE 47.58 / 52.26 52.50 / 53.06 - 408.56 / 381.15
Phonetic Notation FT-M 78.04 / 68.34 72.28 / 64.46 82.17 / 61.29 475.13 / 387.05
AdaLoRA 88.21 / 80.87 76.37 / 67.36 74.94 / 62.62 404.06 / 469.75
ROME 77.15 / 65.58 73.14 / 61.88 80.52 / 62.19 486.19 / 462.08
GRACE 76.63 / 67.04 72.71 / 66.36 81.96 / 65.41 479.89 / 458.02
Classical Chinese FT-M 42.79 / 73.22 48.25 / 53.58 57.78 / 33.83 430.29 / 269.34
AdaLoRA 65.17 / 55.89 52.32 / 45.94 44.57 / 44.13 286.61 / 330.09
ROME 39.28 / 28.06 50.00 / 35.37 50.20 / 35.37 431.48 / 422.80
GRACE 37.92 / 32.97 50.63 / 35.67 56.55 / 52.90 418.28 / 408.85
Geographical Knowledge FT-M 47.30 / 73.02 45.75 / 47.15 - 448.90 / 260.36
AdaLoRA 70.31 / 72.44 52.60 / 55.14 - 313.19 / 377.91
ROME 52.81 / 49.64 43.89 / 42.85 - 402.51 / 408.85
GRACE 46.53 / 53.38 43.59 / 42.85 - 408.97 / 311.22
Ruozhiba FT-M 45.25 / 43.22 57.79 / 57.39 63.92 / 64.09 333.98 / 414.30
AdaLoRA 71.07 / 51.54 62.25 / 55.65 66.57 / 66.13 428.94 / 441.41
ROME 68.42 / 62.88 60.35 / 61.23 68.91 / 70.19 413.37 / 428.03
GRACE 45.16 / 39.83 56.47 / 56.86 63.41 / 63.97 452.39 / 442.60
AI搜集汇总
数据集介绍
main_image_url
构建方式
CKnowEdit数据集的构建基于中文知识库,涵盖了文学、语言学、地理学及Ruozhiba四大类知识。每类知识进一步细分为多个子类,如文学知识包括古诗、谚语和成语,语言学知识则涉及注音和文言文。数据集的构建过程严格遵循高质量标准,确保数据的准确性和代表性,旨在为大型语言模型的中文知识修正提供坚实基础。
特点
CKnowEdit数据集以其丰富的中文知识内容和多样化的数据类型著称。数据集不仅包含传统的中文文学和语言学知识,还涵盖了地理知识和Ruozhiba等现代知识领域。每个数据条目均包含原始提示、错误回答、正确答案及相关扩展提示,便于模型进行知识修正和扩展学习。此外,数据集的多样性和深度使其成为评估和改进中文语言模型的理想工具。
使用方法
使用CKnowEdit数据集时,用户可通过提供的`CKnowEditDataset`类轻松加载数据。数据集的结构清晰,包含提示、新旧目标答案、可移植性和局部性提示等字段。用户可通过运行提供的脚本,结合不同的知识编辑方法(如FT、ROME、GRACE和LoRA)进行模型训练和评估。数据集的评估指标包括编辑准确率、可移植性、局部性和流畅性,确保模型在实际应用中的表现得到全面衡量。
背景与挑战
背景概述
CKnowEdit数据集由浙江大学自然语言处理实验室(ZJUNLP)开发,旨在为大语言模型(LLMs)的中文知识编辑任务提供高质量的数据支持。该数据集涵盖了中文文学知识、语言学知识、地理知识以及Ruozhiba等多个领域,数据来源于中文知识库,具有高度的中文语言特性。CKnowEdit的创建时间为2023年,其核心研究问题在于如何通过知识编辑任务提升LLMs对中文知识的理解与修正能力。该数据集为中文自然语言处理领域的研究提供了重要的基准资源,推动了LLMs在中文知识修正方面的技术进步。
当前挑战
CKnowEdit数据集面临的挑战主要体现在两个方面。首先,在领域问题方面,中文知识的多样性和复杂性使得LLMs在理解和修正中文知识时面临巨大挑战,尤其是在处理古文、成语、地理知识等特定领域时,模型需要具备高度的语义理解和上下文推理能力。其次,在数据集构建过程中,如何确保数据的准确性和代表性是一个关键挑战。由于中文知识的广泛性和动态性,数据收集和标注过程中需要克服知识更新频繁、标注标准不统一等问题。此外,如何设计有效的评估指标以全面衡量知识编辑的效果,也是该数据集面临的重要挑战之一。
常用场景
经典使用场景
CKnowEdit数据集专为中文知识编辑任务设计,涵盖了古诗文、谚语、成语、语音标注、文言文、地理知识及日常知识问答等多个领域。其经典使用场景包括评估和优化大型语言模型在中文知识理解与生成任务中的表现。通过提供错误的模型输出和正确的答案,CKnowEdit能够帮助研究者深入分析模型在中文语境下的知识修正能力,从而提升模型的知识准确性和语言理解深度。
衍生相关工作
CKnowEdit数据集的发布催生了一系列相关研究工作,尤其是在中文知识编辑和模型优化领域。基于该数据集,研究者提出了多种知识编辑方法,如FT、ROME、GRACE和LoRA等,这些方法在中文知识修正任务中表现出色。此外,CKnowEdit还推动了中文知识迁移和局部性保持的研究,为中文自然语言处理领域提供了新的研究方向。这些工作不仅提升了模型在中文知识编辑任务中的表现,也为其他语言的知识编辑研究提供了借鉴。
数据集最近研究
最新研究方向
近年来,随着大规模语言模型(LLMs)在中文处理领域的广泛应用,CKnowEdit数据集的研究方向主要集中在如何提升模型对中文知识的理解和修正能力。该数据集通过涵盖中国文学、语言学、地理知识及Ruozhiba等多个领域,为研究者提供了一个全面的中文知识编辑基准。前沿研究聚焦于如何通过知识编辑技术,如FT、ROME、GRACE和LoRA等方法,有效修正模型中的知识错误,并评估其在不同知识类型上的表现。这些研究不仅推动了中文语言模型的知识更新能力,还为模型在实际应用中的知识准确性和鲁棒性提供了重要参考。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

GAOKAO-Bench

GAOKAO-Bench是由复旦大学计算机科学与技术学院创建的数据集,涵盖了2010至2022年间中国高考的所有科目题目,共计2811题。该数据集包含1781道客观题和1030道主观题,题型多样,包括单选、填空、改错、开放性问题等。数据集通过自动化脚本和人工标注将PDF格式的题目转换为JSON文件,数学公式则转换为LATEX格式。GAOKAO-Bench旨在为大型语言模型提供一个全面且贴近实际应用的评估基准,特别是在解决中国高考相关问题上的表现。

arXiv 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

Fruits-360

一个高质量的水果图像数据集,包含多种水果的图像,如苹果、香蕉、樱桃等,总计42345张图片,分为训练集和验证集,共有64个水果类别。

github 收录