five

LCM<sup>3</sup>DS Corpus|对话摘要数据集|自然语言处理数据集

收藏
github2023-10-30 更新2024-05-31 收录
对话摘要
自然语言处理
下载链接:
https://github.com/zhouweixiao/MP4
下载链接
链接失效反馈
资源简介:
LCM<sup>3</sup>DS是一个由ChatGPT标注的大型多场景多领域对话摘要数据集。该数据集标准化且质量高,适用于在自定义模型架构上进行预训练。
创建时间:
2023-06-20
原始信息汇总

LCM<sup>3</sup>DS 语料库

概述

  • LCM<sup>3</sup>DS 是一个由 ChatGPT 标注的大规模多场景多领域对话摘要语料库。
  • 该语料库可在 Google DriveBaidu Netdisk 上获取。
  • LCM<sup>3</sup>DS 是一个标准化的高质量语料库,可用于在自定义模型架构上进行预训练。

数据提取

  • 可以使用以下代码提取 "dialogue-summary" 并行数据: python with open(os.path.join(dataset_path, dataset_name), r) as rf: data = json.load(rf) dataset = [] for sample in data: if chatgpt_anno_summ in sample: dialogue = [i[added_role] + <eor> + i[utterance] + <eou> for i in sample[dialogue]] summary = sample[chatgpt_anno_summ] dataset.append({dialogue: dialogue, summary: summary}) if role-rep_named-coref_summ in sample: dialogue = [i[named_coref] + <eor> + i[utterance] + <eou> for i in sample[dialogue]] summary = sample[role-rep_named-coref_summ] dataset.append({dialogue: dialogue, summary: summary}) if role-rep_cust-serv_summ in sample: dialogue = [i[cust_serv] + <eor> + i[utterance] + <eou> for i in sample[dialogue]] summary = sample[role-rep_cust-serv_summ] dataset.append({dialogue: dialogue, summary: summary})

MP4 模型库

模型下载

  • 完整微调模型、少量样本模型、预训练模型和初始化模型可从以下链接获取:

下游数据集

数据集 训练集 验证集 测试集 领域
SAMSum 14,731 818 819 ODDS-Online
DIALOGSUM 12,460 500 500 ODDS-Daily
TWEETSUMM 869 108 110 CSDS-Tweet

推理结果

提示 R-1 R-2 R-L
Preceding 37.90 15.19 35.89
InstructGPT 42.17 16.84 39.26
Subsequent 40.08 15.41 37.22

推理步骤

  1. 确保所需的下游数据集存储在 datasets 文件夹中。
  2. 确保要测试的模型已下载并放置在相应的子文件夹中:models/fine-tunedmodels/few-shotmodels/pre-trainedmodels/initialized
  3. 运行 inference.py。以下是一个推理示例: bash CUDA_VISIBLE_DEVICES=0 python -u inference.py --model_path ../models/fine-tuned/MP4-DAP-TOP-SAMSum --dataset_name SAMSum --gen_use_cache --gen_max_length 100 --gen_min_length 5 --gen_beam_size 5 --gen_length_penalty 1.0 --gen_no_repeat_ngram_size 0 --infer_path ../outputs/Fine-tuned_MP4-DAP-TOP-SAMSum

微调步骤

  1. 确保所需的微调数据集存储在 datasets 文件夹中。
  2. 确保 MP4-DAPMP4-DAP-TOP 预训练模型已下载并放置在 models/pre-trained 子文件夹中。
  3. 运行 training.py。以下是一个微调示例: bash CUDA_VISIBLE_DEVICES=6,7,8,9 python -u training.py --mode fine-tuning --model_path ../models/pre-trained/MP4-DAP-TOP --ckpt_save_path ../models/fine-tuned/MP4-DAP-TOP-SAMSum-Ours --gpus 4 --use_ddp --max_steps 1155 --val_check_interval 0.50 --num_sanity_val_steps 2 --accumulate_grad_batches 1 --progress_bar_refresh_rate 1 --lr 3e-05 --warmup_steps 100 --label_smoothing 0.1 --dataset_name Downstream_Datasets/SAMSum --max_length_src 1024 --max_length_tgt 256 --batch_size 16 --gen_use_cache --gen_max_length 100 --gen_min_length 5 --gen_beam_size 5 --gen_length_penalty 1.0 --gen_no_repeat_ngram_size 0

预训练步骤

  1. 确保所需的预训练数据集(即 DAP_0.20DAP_0.40LCM<sup>3</sup>DS.json)存储在 datasets 文件夹中。
  2. 确保初始 Speaker-BART 模型已下载并放置在 models/initialized 子文件夹中。
  3. 运行 training.py。以下是一个领域感知预训练示例: bash CUDA_VISIBLE_DEVICES=2,3,4,5,6,7,8,9 python -u training.py --mode pre-training-dap --model_path ../models/initialized/Speaker-BART --ckpt_save_path ../models/pre-trained/MP4-DAP-Ours --gpus 8 --use_ddp --max_steps 5000 --val_check_interval 0.50 --num_sanity_val_steps 100 --accumulate_grad_batches 1 --progress_bar_refresh_rate 1 --lr 3e-05 --warmup_steps 500 --label_smoothing 0.1 --dataset_name DAP_0.20 --val_dataset_name SAMSum-DIALOGSUM-TWEETSUMM --max_length_src 1024 --max_length_tgt 1024 --batch_size 16 --gen_use_cache --gen_max_length 100 --gen_min_length 5 --gen_beam_size 5 --gen_length_penalty 1.0 --gen_no_repeat_ngram_size 0
AI搜集汇总
数据集介绍
main_image_url
构建方式
LCM<sup>3</sup>DS Corpus 是一个大规模多场景多领域的对话摘要语料库,其标注工作由 ChatGPT 完成。该数据集的构建基于多样化的对话场景和领域,涵盖了丰富的对话内容。通过自动化标注工具和人工校验相结合的方式,确保了数据的高质量和一致性。数据集的构建过程注重对话的多样性和复杂性,旨在为对话摘要任务提供全面的训练和评估资源。
特点
LCM<sup>3</sup>DS Corpus 的特点在于其多场景和多领域的覆盖范围,能够有效支持对话摘要任务的研究与应用。数据集中的对话内容涵盖了日常对话、客户服务对话以及社交媒体对话等多种场景,且每个对话均配有高质量的摘要标注。此外,数据集还提供了多种摘要版本,包括基于角色替换和命名实体消解的摘要,进一步增强了数据集的多样性和实用性。
使用方法
使用 LCM<sup>3</sup>DS Corpus 时,用户可以通过提供的代码提取对话与摘要的平行数据。数据集支持多种模型训练和推理任务,包括全量微调、少样本学习和预训练等。用户可以根据需求选择不同的模型配置,并通过命令行工具进行推理或训练。此外,数据集还提供了详细的评估脚本,方便用户对模型性能进行量化分析。
背景与挑战
背景概述
LCM<sup>3</sup>DS语料库是一个由ChatGPT标注的大规模多场景多领域对话摘要数据集,旨在推动对话摘要领域的研究与发展。该数据集由北京航空航天大学的研究团队于2023年创建,主要研究人员包括Weixiao Zhou等人。其核心研究问题在于如何通过多阶段预训练和ChatGPT的增强,提升多场景多领域对话摘要的生成质量。该数据集不仅为对话摘要任务提供了高质量的标注数据,还为相关领域的模型预训练和微调提供了重要支持,显著推动了对话生成与摘要技术的进步。
当前挑战
LCM<sup>3</sup>DS数据集在构建与应用过程中面临多重挑战。首先,对话摘要任务本身具有复杂性,尤其是在多场景和多领域的背景下,如何准确捕捉对话的核心信息并生成简洁的摘要是一个关键难题。其次,数据集的构建依赖于ChatGPT的标注,尽管其生成能力强大,但仍需解决标注一致性与准确性问题。此外,多领域数据的多样性和场景的复杂性对模型的泛化能力提出了更高要求,如何在预训练和微调过程中有效利用这些数据,进一步提升模型的性能,是当前研究的主要挑战之一。
常用场景
经典使用场景
LCM<sup>3</sup>DS Corpus作为一个大规模多场景多领域的对话摘要语料库,广泛应用于对话摘要模型的预训练和微调。其经典使用场景包括通过ChatGPT标注的对话摘要数据,帮助研究人员构建和优化对话摘要模型,特别是在多领域对话场景中,能够显著提升模型的泛化能力和摘要质量。
实际应用
在实际应用中,LCM<sup>3</sup>DS Corpus被广泛应用于智能客服、会议记录自动摘要、社交媒体对话摘要等场景。例如,在智能客服系统中,该数据集可以帮助模型快速生成高质量的对话摘要,提升客户服务效率;在会议记录场景中,模型能够自动提取关键信息,生成简洁的会议纪要,节省人力成本。
衍生相关工作
基于LCM<sup>3</sup>DS Corpus,研究人员开发了多种先进的对话摘要模型,如MP4-DAP和MP4-DAP-TOP模型。这些模型通过多阶段预训练和微调,显著提升了对话摘要的性能。此外,该数据集还催生了一系列相关研究,如多领域对话摘要的迁移学习、基于ChatGPT的零样本摘要生成等,推动了对话摘要领域的技术进步。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

China Groundgroundwater Monitoring Network

该数据集包含中国地下水监测网络的数据,涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标(如pH值、溶解氧、总硬度等)以及环境因素(如气温、降水量等)。

www.ngac.org.cn 收录

中国区域环境数据库

该数据集包含中国各区域的环境数据,涵盖空气质量、水质、土壤污染等多个方面的指标。数据以时间序列的形式记录,便于进行长期的环境变化分析。

www.mee.gov.cn 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录