five

Heigke/stanford-enigma-philosophy-chat

收藏
Hugging Face2024-01-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Heigke/stanford-enigma-philosophy-chat
下载链接
链接失效反馈
官方服务:
资源简介:
stanford-enigma-philosophy-chat数据集包含大约27,000个问题和答案,灵感来自斯坦福哲学百科的文章。问题和答案涵盖了从僵尸到推理概念,从形而上学到神经伦理学等广泛的主题,涉及数学、逻辑和哲学的核心内容。数据集格式为JSON,包含三个条目:input、instruction和output。

stanford-enigma-philosophy-chat数据集包含大约27,000个问题和答案,灵感来自斯坦福哲学百科的文章。问题和答案涵盖了从僵尸到推理概念,从形而上学到神经伦理学等广泛的主题,涉及数学、逻辑和哲学的核心内容。数据集格式为JSON,包含三个条目:input、instruction和output。
提供机构:
Heigke
原始信息汇总

数据集卡片 for stanford-enigma-philosophy-chat 数据集

数据集概述

该数据集包含约27,000个问题和答案,灵感来源于斯坦福哲学百科全书的文章。问题涵盖从僵尸到溯因概念,从形而上学到神经伦理学等多个哲学领域。

数据集详情

数据集格式简单,适用于如Mixtral 8x7BLLama-Factory中的使用,包含三个字段:输入、指令和输出。

数据集描述/如何使用

格式

数据集是一个JSON文件,格式如下: json [ { "instruction": "You are an expert in philosophy.", "input": "How would you describe William Whewells contribution to philosophy and science in the 19th century Britain?", "output": "William Whewell was a polymath who wrote extensively on various subjects including mechanics, mineralogy, geology, astronomy, political economy, theology, educational reform, international law, and architecture." }, { "instruction": "You are an expert in philosophy.", "input": "What were the key influences and associations in William Whewells life?", "output": "William Whewell was greatly influenced by his association with three of his fellow students at Cambridge: Charles Babbage, John Herschel, and Richard Jones." } ]

如何与transformers数据集一起使用

python from datasets import load_dataset dataset = load_dataset("Heigke/stanford-enigma-philosophy-chat")

如何与LLama-Factory一起使用

修改LLama-Factory/data目录下的dataset_info.json文件,添加如下条目: json { "stanford-enigma-philosophy-chat": { "hf_hub_url": "Heigke/stanford-enigma-philosophy-chat" }, "philosophy": { "file_name": "cleaned_philosophy_dataset.json", "file_sha1": "3a771f4d524d513be37d8d31166274d3a18a610d" }, "alpaca_en": { "file_name": "alpaca_data_en_52k.json", ...

然后使用--dataset stanford-enigma-philosophy-chat标志,例如: bash CUDA_VISIBLE_DEVICES=2 python3 src/train_bash.py --stage sft --do_train --model_name_or_path mistralai/Mixtral-8x7B-Instruct-v0.1 --dataset stanford-enigma-philosophy-chat --template mistral --finetuning_type lora --lora_target q_proj,v_proj --output_dir path_to_sft_checkpoint_hf --overwrite_cache --per_device_train_batch_size 4 --gradient_accumulation_steps 4 --lr_scheduler_type cosine --logging_steps 10 --save_steps 1000 --learning_rate 5e-5 --num_train_epochs 3.0 --plot_loss --flash_attn --quantization_bit 4 --cache_dir /mnt/hdd1

数据集来源 [可选]

  • 仓库: -
  • 论文 [可选]: 即将到来
  • 演示 [可选]: 即将到来

使用

直接使用

[更多信息待补充]

超出范围使用

[更多信息待补充]

数据集结构

[更多信息待补充]

数据集创建

创建理由

[更多信息待补充]

源数据

数据收集和处理

[更多信息待补充]

源数据生产者

[更多信息待补充]

注释 [可选]

注释过程

[更多信息待补充]

注释者

[更多信息待补充]

个人和敏感信息

[更多信息待补充]

偏差、风险和限制

[更多信息待补充]

建议

用户应了解数据集的风险、偏差和技术限制。更多信息待补充以提供进一步建议。

引用 [可选]

BibTeX: [更多信息待补充]

APA: [更多信息待补充]

术语表 [可选]

[更多信息待补充]

更多信息 [可选]

[更多信息待补充]

数据集卡片作者 [可选]

[更多信息待补充]

数据集卡片联系

[更多信息待补充]

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作