LDJnr/Verified-Camel

Name: LDJnr/Verified-Camel
Creator: LDJnr
Published: 2024-06-03 01:47:18
License: 暂无描述

Hugging Face2024-06-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/LDJnr/Verified-Camel

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 task_categories: - conversational - question-answering - text-generation language: - en tags: - Physics - Biology - Math - Chemistry - Culture - Logic pretty_name: Verified-Camel size_categories: - n<1K --- ## This is the Official Verified Camel dataset. Just over 100 verified examples, and many more coming soon! - Comprised of over 100 highly filtered and curated examples from specific portions of CamelAI stem datasets. - These examples are verified to be true by experts in the specific related field, with atleast a bachelors degree in the subject. - Roughly 30-40% of the originally curated data from CamelAI was found to have atleast minor errors and/or incoherent questions(as determined by experts in said field) ## Purpose? - This dataset is not intended to be trained on by itself(besides perhaps interesting research purposes) however, the size and quality of this dataset can work wonderfully as a supplemmentary addition to virtually any multi-turn compatible dataset. I encourage this use, all I ask is proper credits given for such! ## Quality filtering and cleaning. - Extensive cleaning was done to make sure there is no possible instances of overt AI moralizing or related behaviour, such as "As an AI language model" and "September 2021" - This was done for the initial curation due to the responses being originally created by GPT-4. ## Future Plans & How you can help! This is a relatively early build amongst the grand plans for the future of what I plan to work on! In the near future we plan on leveraging the help of even more domain specific expert volunteers to eliminate any mathematically/verifiably incorrect answers from training curations of different types of datasets. If you have at-least a bachelors in mathematics, physics, biology or chemistry and would like to volunteer even just 30 minutes of your expertise time, please contact LDJ on discord! Citation: ``` @article{daniele2023amplify-instruct, title={Amplify-Instruct: Synthetically Generated Diverse Multi-turn Conversations for efficient LLM Training.}, author={Daniele, Luigi and Suphavadeeprasit}, journal={arXiv preprint arXiv:(coming soon)}, url={https://huggingface.co/datasets/LDJnr/Capybara}, year={2023} } ```

许可证：Apache-2.0 任务类别： - 对话式 - 问答式 - 文本生成语言：英语（en）标签：物理学、生物学、数学、化学、文化、逻辑学展示名称：Verified-Camel 样本规模类别：n<1K（样本量小于1000） --- 本数据集为官方认证的Verified-Camel数据集，目前仅收录100余条经过认证的样本，后续将追加更多样本！ - 数据集包含100余条经过严格筛选与精心整理的样本，均取自CamelAI理工科（STEM）数据集的特定子集。 - 所有样本均已通过对应领域专家的真实性认证，这些专家至少持有该学科的学士学位。 - 最初从CamelAI数据集整理得到的样本中，约30%至40%被相关领域专家检出存在至少轻微错误，或问题表述不通顺的情况。 ## 数据集用途？ - 本数据集不建议单独用于模型训练（特殊研究场景除外），但其规模与优质特性可作为极佳的补充数据，适配几乎所有支持多轮对话的数据集。我鼓励此类使用方式，仅恳请相关使用者注明数据集来源。 ## 质量筛选与清洗流程 - 我们执行了全面的清洗流程，确保数据中不存在明确的AI道德说教或相关表述，例如"As an AI language model"（作为AI语言模型）以及"September 2021"（2021年9月）这类内容。 - 本次清洗针对初始整理阶段开展，因原始回复均由GPT-4生成。 ## 未来规划与参与方式这仅是我未来工作计划中的早期版本之一。近期我们计划招募更多领域专家志愿者，以清除各类数据集训练整理集中存在的数学或可验证性错误答案。若您持有数学、物理、生物或化学专业的学士学位，且愿意贡献至少30分钟的专业时间，请通过Discord联系LDJ！ ## 引用格式： @article{daniele2023amplify-instruct, title={Amplify-Instruct: Synthetically Generated Diverse Multi-turn Conversations for efficient LLM Training.}, author={Daniele, Luigi and Suphavadeeprasit}, journal={arXiv preprint arXiv:(coming soon)}, url={https://huggingface.co/datasets/LDJnr/Capybara}, year={2023} }

提供机构：

LDJnr

原始信息汇总

Verified-Camel 数据集概述

基本信息

许可证: Apache-2.0
任务类别: 对话、问答、文本生成
语言: 英语
标签: 物理、生物、数学、化学、文化、逻辑
数据集名称: Verified-Camel
数据规模: n<1K

数据集描述

组成: 包含超过100个高度筛选和精心挑选的示例，来源于CamelAI的特定STEM数据集部分。
质量保证: 这些示例由相关领域的专家验证为真实，专家至少拥有该学科的学士学位。
数据筛选: 原始数据中约30-40%被发现存在至少轻微的错误或不连贯的问题。

数据集用途

主要用途: 该数据集不旨在单独用于训练（除了可能的研究目的），但可以作为任何多轮兼容数据集的补充。
使用建议: 鼓励将其作为补充数据集使用，但需给予适当的引用。

数据清洗

清洗内容: 进行了广泛的清洗，确保不存在明显的AI道德化或相关行为，如“作为一个AI语言模型”和“2021年9月”。
清洗原因: 这些响应最初由GPT-4创建。

未来计划

扩展计划: 计划利用更多领域特定专家志愿者的帮助，消除不同类型数据集训练中的数学上或可验证的不正确答案。
志愿者招募: 如果你拥有数学、物理、生物或化学的学士学位，并愿意贡献30分钟的专业时间，请联系LDJ在Discord上。

引用

@article{daniele2023amplify-instruct, title={Amplify-Instruct: Synthetically Generated Diverse Multi-turn Conversations for efficient LLM Training.}, author={Daniele, Luigi and Suphavadeeprasit}, journal={arXiv preprint arXiv:(coming soon)}, url={https://huggingface.co/datasets/LDJnr/Capybara}, year={2023} }

搜集汇总

数据集介绍

构建方式

在构建Verified-Camel数据集的过程中，研究团队从CamelAI的原始数据集中精心筛选出特定领域的对话片段，经过多轮严格的人工审核与专家验证。这些数据由至少拥有相关学科学士学位的专家进行真实性校验，确保每一则对话在科学逻辑与事实准确性上均达到高标准。原始数据中约30%至40%的内容因存在细微错误或逻辑不连贯而被剔除，体现了构建过程中对数据纯净度的极致追求。

特点

该数据集以其高度的专业性与精准性脱颖而出，涵盖物理学、生物学、数学、化学及文化逻辑等多个学科领域，每一则对话均经过领域专家的严格验证，确保了内容的科学严谨性。数据规模虽不足千例，但经过深度清洗，彻底移除了人工智能模型常见的道德说教痕迹及时间戳等无关信息，使得数据集在保持小规模的同时，具备了极高的信噪比与学术参考价值。

使用方法

Verified-Camel数据集主要作为高质量补充资源，适用于多轮对话、问答及文本生成等任务的研究与模型训练。使用者可将其与其他大规模对话数据集结合，以提升模型在专业领域的推理能力与事实准确性。在应用时，建议遵循数据集的许可协议，并适当引用来源，以支持开放科学的发展。对于希望贡献专业知识的志愿者，数据集维护团队也提供了参与校验的渠道，共同促进数据质量的持续优化。

背景与挑战

背景概述

在人工智能领域，高质量对话数据集的构建对于提升大型语言模型在专业学科中的表现至关重要。Verified-Camel数据集由研究人员LDJnr于2023年创建，其核心目标在于通过专家验证机制，为物理学、生物学、数学、化学等多学科提供精准、可靠的多轮对话数据。该数据集源自CamelAI的精选子集，经过领域内拥有学士学位及以上资质的专家严格审核，确保了内容的科学性与逻辑一致性，旨在弥补现有数据集中普遍存在的错误与模糊性问题，为后续的模型训练与研究提供高信度的补充资源。

当前挑战

Verified-Camel数据集面临的挑战主要体现在两个方面：其一，在解决多学科专业对话生成问题时，如何确保模型在复杂科学语境下的回答准确性与逻辑连贯性，避免因数据噪声导致的模型幻觉或错误泛化；其二，在构建过程中，原始数据中约30-40%的内容被专家发现存在细微错误或问题表述不清，需通过跨领域协作与精细清洗来消除这些缺陷，同时还需克服AI生成内容中固有的道德说教与时间戳干扰，以维持数据的纯粹性与时效性。

常用场景

经典使用场景

在自然语言处理领域，Verified-Camel数据集以其经过专家验证的高质量对话样本而著称，尤其适用于多轮对话系统的开发与评估。该数据集涵盖了物理学、生物学、数学、化学、文化与逻辑等多个学科，为研究者提供了一个跨学科的对话基准。其经典使用场景包括训练和测试大型语言模型在复杂、专业领域的对话能力，确保模型生成的回应不仅流畅，而且在学术上准确无误。通过整合这些经过严格筛选的样本，研究人员能够提升模型在专业语境下的表现，避免常见错误或不连贯问题。

衍生相关工作

基于Verified-Camel数据集，已衍生出多项经典研究工作，主要集中在数据增强和模型训练优化方面。例如，相关研究探索了如何利用专家验证样本改进合成对话生成技术，如Amplify-Instruct方法，旨在高效生成多样化的多轮对话。这些工作进一步推动了跨学科对话数据集的构建标准，鼓励更多领域专家参与数据验证过程。此外，该数据集还启发了关于错误检测算法和AI道德过滤机制的研究，为自然语言处理社区提供了宝贵的参考框架。

数据集最近研究