ADS-Edit|大语言模型数据集|中文知识处理数据集
收藏EasyEdit 数据集概述
数据集简介
EasyEdit 是一个用于大型语言模型(LLM)知识编辑的框架,旨在通过特定的编辑技术调整模型的行为,使其在特定领域内的表现得到优化,同时不影响其他输入的性能。
数据集内容
编辑任务定义
- 知识插入:向模型中注入新的知识。
- 知识更新:更新模型中已有的过时知识。
- 知识擦除:擦除模型中的敏感信息。
编辑技术比较
EasyEdit 支持多种知识编辑技术,包括:
- Memory-based: SERAC, IKE, GRACE, MELO, WISE
- Meta-learning: MEND, InstructEdit, MALMEN
- Locate-then-edit: KN, ROME, MEMIT, PMET, DINM, R-ROME, EMMET
- FT-L
评估指标
- Reliability: 编辑成功率
- Generalization: 编辑范围内的成功率
- Locality: 编辑后对无关输入的影响
- Portability: 编辑在推理/应用中的成功率
- Efficiency: 时间和内存消耗
数据集版本
- 版本: v0.0.1
- 最新提交: May
数据集链接
- 论文: A Comprehensive Study of Knowledge Editing for Large Language Models
- 基准: KnowEdit
- 代码: EasyEdit GitHub
相关资源
- 文档: EasyEdit Doc
- 演示: EasyEdit Demo
- 教程: EasyEdit Slides
- 视频: EasyEdit Video

- 1Benchmarking Chinese Knowledge Rectification in Large Language Models浙江大学 · 2024年
开源PHM数据集
本文分享了一个全球各大学、研究机构和公司捐赠的PHM(Prognostics and Health Management)开源数据集,涵盖加工制造、轨道交通、能源电力和半导体等行业的多种场景,包含部件级、设备级和产线级数据。用户可以利用这些数据开发智能分析和建模算法,数据集分类包括故障诊断、健康评估和寿命预测。
github 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
中国车牌识别数据集(7类,33万张)
这是一个高质量、平衡的中国车牌识别数据集,包含了33万张各类中国车牌的图片。数据集经过精心设计,确保了图像质量的优秀和大部分各类车牌类型的平衡分布。这个数据集非常适合用于训练和评估车牌识别模型。
魔搭社区 收录
Traffic Prediction Dataset
Hourly traffic data on four different junctions
kaggle 收录