LCM<sup>3</sup>DS Corpus|对话摘要数据集|自然语言处理数据集
收藏LCM<sup>3</sup>DS 语料库
概述
- LCM<sup>3</sup>DS 是一个由 ChatGPT 标注的大规模多场景多领域对话摘要语料库。
- 该语料库可在 Google Drive 和 Baidu Netdisk 上获取。
- LCM<sup>3</sup>DS 是一个标准化的高质量语料库,可用于在自定义模型架构上进行预训练。
数据提取
- 可以使用以下代码提取 "dialogue-summary" 并行数据: python with open(os.path.join(dataset_path, dataset_name), r) as rf: data = json.load(rf) dataset = [] for sample in data: if chatgpt_anno_summ in sample: dialogue = [i[added_role] + <eor> + i[utterance] + <eou> for i in sample[dialogue]] summary = sample[chatgpt_anno_summ] dataset.append({dialogue: dialogue, summary: summary}) if role-rep_named-coref_summ in sample: dialogue = [i[named_coref] + <eor> + i[utterance] + <eou> for i in sample[dialogue]] summary = sample[role-rep_named-coref_summ] dataset.append({dialogue: dialogue, summary: summary}) if role-rep_cust-serv_summ in sample: dialogue = [i[cust_serv] + <eor> + i[utterance] + <eou> for i in sample[dialogue]] summary = sample[role-rep_cust-serv_summ] dataset.append({dialogue: dialogue, summary: summary})
MP4 模型库
模型下载
- 完整微调模型、少量样本模型、预训练模型和初始化模型可从以下链接获取:
模型类型 | Google Drive | Baidu Netdisk |
---|---|---|
微调模型 | SAMSum, DIALOGSUM, TWEETSUMM | SAMSum, DIALOGSUM, TWEETSUMM |
少量样本模型 | SAMSum, DIALOGSUM, TWEETSUMM | SAMSum, DIALOGSUM, TWEETSUMM |
预训练模型 | MP4-DAP, MP4-DAP-TOP | MP4-DAP, MP4-DAP-TOP |
初始化模型 | Speaker-BART | Speaker-BART |
下游数据集
- 下游数据集可在 Google Drive 和 Baidu Netdisk 上获取。
数据集 | 训练集 | 验证集 | 测试集 | 领域 |
---|---|---|---|---|
SAMSum | 14,731 | 818 | 819 | ODDS-Online |
DIALOGSUM | 12,460 | 500 | 500 | ODDS-Daily |
TWEETSUMM | 869 | 108 | 110 | CSDS-Tweet |
推理结果
- ChatGPT(零样本)在 SAMSum 测试集 上的推理结果可在 Google Drive 和 Baidu Netdisk 上获取。
提示 | R-1 | R-2 | R-L |
---|---|---|---|
Preceding | 37.90 | 15.19 | 35.89 |
InstructGPT | 42.17 | 16.84 | 39.26 |
Subsequent | 40.08 | 15.41 | 37.22 |
推理步骤
- 确保所需的下游数据集存储在
datasets
文件夹中。 - 确保要测试的模型已下载并放置在相应的子文件夹中:
models/fine-tuned
、models/few-shot
、models/pre-trained
、models/initialized
。 - 运行
inference.py
。以下是一个推理示例: bash CUDA_VISIBLE_DEVICES=0 python -u inference.py --model_path ../models/fine-tuned/MP4-DAP-TOP-SAMSum --dataset_name SAMSum --gen_use_cache --gen_max_length 100 --gen_min_length 5 --gen_beam_size 5 --gen_length_penalty 1.0 --gen_no_repeat_ngram_size 0 --infer_path ../outputs/Fine-tuned_MP4-DAP-TOP-SAMSum
微调步骤
- 确保所需的微调数据集存储在
datasets
文件夹中。 - 确保 MP4-DAP 或 MP4-DAP-TOP 预训练模型已下载并放置在
models/pre-trained
子文件夹中。 - 运行
training.py
。以下是一个微调示例: bash CUDA_VISIBLE_DEVICES=6,7,8,9 python -u training.py --mode fine-tuning --model_path ../models/pre-trained/MP4-DAP-TOP --ckpt_save_path ../models/fine-tuned/MP4-DAP-TOP-SAMSum-Ours --gpus 4 --use_ddp --max_steps 1155 --val_check_interval 0.50 --num_sanity_val_steps 2 --accumulate_grad_batches 1 --progress_bar_refresh_rate 1 --lr 3e-05 --warmup_steps 100 --label_smoothing 0.1 --dataset_name Downstream_Datasets/SAMSum --max_length_src 1024 --max_length_tgt 256 --batch_size 16 --gen_use_cache --gen_max_length 100 --gen_min_length 5 --gen_beam_size 5 --gen_length_penalty 1.0 --gen_no_repeat_ngram_size 0
预训练步骤
- 确保所需的预训练数据集(即 DAP_0.20、DAP_0.40 或 LCM<sup>3</sup>DS.json)存储在
datasets
文件夹中。 - 确保初始 Speaker-BART 模型已下载并放置在
models/initialized
子文件夹中。 - 运行
training.py
。以下是一个领域感知预训练示例: bash CUDA_VISIBLE_DEVICES=2,3,4,5,6,7,8,9 python -u training.py --mode pre-training-dap --model_path ../models/initialized/Speaker-BART --ckpt_save_path ../models/pre-trained/MP4-DAP-Ours --gpus 8 --use_ddp --max_steps 5000 --val_check_interval 0.50 --num_sanity_val_steps 100 --accumulate_grad_batches 1 --progress_bar_refresh_rate 1 --lr 3e-05 --warmup_steps 500 --label_smoothing 0.1 --dataset_name DAP_0.20 --val_dataset_name SAMSum-DIALOGSUM-TWEETSUMM --max_length_src 1024 --max_length_tgt 1024 --batch_size 16 --gen_use_cache --gen_max_length 100 --gen_min_length 5 --gen_beam_size 5 --gen_length_penalty 1.0 --gen_no_repeat_ngram_size 0

中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
China Groundgroundwater Monitoring Network
该数据集包含中国地下水监测网络的数据,涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标(如pH值、溶解氧、总硬度等)以及环境因素(如气温、降水量等)。
www.ngac.org.cn 收录
中国区域环境数据库
该数据集包含中国各区域的环境数据,涵盖空气质量、水质、土壤污染等多个方面的指标。数据以时间序列的形式记录,便于进行长期的环境变化分析。
www.mee.gov.cn 收录
China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
中国行政区划数据
本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。
github 收录