Heigke/stanford-enigma-philosophy-chat
收藏数据集卡片 for stanford-enigma-philosophy-chat 数据集
数据集概述
该数据集包含约27,000个问题和答案,灵感来源于斯坦福哲学百科全书的文章。问题涵盖从僵尸到溯因概念,从形而上学到神经伦理学等多个哲学领域。
数据集详情
数据集格式简单,适用于如Mixtral 8x7B在LLama-Factory中的使用,包含三个字段:输入、指令和输出。
数据集描述/如何使用
格式
数据集是一个JSON文件,格式如下: json [ { "instruction": "You are an expert in philosophy.", "input": "How would you describe William Whewells contribution to philosophy and science in the 19th century Britain?", "output": "William Whewell was a polymath who wrote extensively on various subjects including mechanics, mineralogy, geology, astronomy, political economy, theology, educational reform, international law, and architecture." }, { "instruction": "You are an expert in philosophy.", "input": "What were the key influences and associations in William Whewells life?", "output": "William Whewell was greatly influenced by his association with three of his fellow students at Cambridge: Charles Babbage, John Herschel, and Richard Jones." } ]
如何与transformers数据集一起使用
python from datasets import load_dataset dataset = load_dataset("Heigke/stanford-enigma-philosophy-chat")
如何与LLama-Factory一起使用
修改LLama-Factory/data目录下的dataset_info.json文件,添加如下条目: json { "stanford-enigma-philosophy-chat": { "hf_hub_url": "Heigke/stanford-enigma-philosophy-chat" }, "philosophy": { "file_name": "cleaned_philosophy_dataset.json", "file_sha1": "3a771f4d524d513be37d8d31166274d3a18a610d" }, "alpaca_en": { "file_name": "alpaca_data_en_52k.json", ...
然后使用--dataset stanford-enigma-philosophy-chat标志,例如:
bash
CUDA_VISIBLE_DEVICES=2 python3 src/train_bash.py --stage sft --do_train --model_name_or_path mistralai/Mixtral-8x7B-Instruct-v0.1 --dataset stanford-enigma-philosophy-chat --template mistral --finetuning_type lora --lora_target q_proj,v_proj --output_dir path_to_sft_checkpoint_hf --overwrite_cache --per_device_train_batch_size 4 --gradient_accumulation_steps 4 --lr_scheduler_type cosine --logging_steps 10 --save_steps 1000 --learning_rate 5e-5 --num_train_epochs 3.0 --plot_loss --flash_attn --quantization_bit 4 --cache_dir /mnt/hdd1
数据集来源 [可选]
- 仓库: -
- 论文 [可选]: 即将到来
- 演示 [可选]: 即将到来
使用
直接使用
[更多信息待补充]
超出范围使用
[更多信息待补充]
数据集结构
[更多信息待补充]
数据集创建
创建理由
[更多信息待补充]
源数据
数据收集和处理
[更多信息待补充]
源数据生产者
[更多信息待补充]
注释 [可选]
注释过程
[更多信息待补充]
注释者
[更多信息待补充]
个人和敏感信息
[更多信息待补充]
偏差、风险和限制
[更多信息待补充]
建议
用户应了解数据集的风险、偏差和技术限制。更多信息待补充以提供进一步建议。
引用 [可选]
BibTeX: [更多信息待补充]
APA: [更多信息待补充]
术语表 [可选]
[更多信息待补充]
更多信息 [可选]
[更多信息待补充]
数据集卡片作者 [可选]
[更多信息待补充]
数据集卡片联系
[更多信息待补充]



