glimmerfox
收藏Glimmerfox Knowledge Base - Q&A Dataset
数据集描述
Glimmerfox Knowledge Base - Q&A Dataset 是一个用于检索增强生成(RAG)项目的合成数据集。它包含关于虚构物种 Glimmerfox(Vulpilynx chameleontis)的全面问题和答案集合。Glimmerfox 是一种基因工程物种,结合了狐狸(Vulpes)、猞猁(Lynx)和变色龙(Chamaeleonidae)的特征,由保加利亚索菲亚遗传创新和生物多样性实验室开发。该数据集适用于训练自然语言处理模型,用于阅读理解、自然语言理解、合成生物学模拟和物种描述生成等任务。
- 语言:英语
- 许可证:MIT
数据集结构
数据集以CSV格式提供,每个条目包含一个问题及其对应的答案。
- 列:
question:与Glimmerfox相关的问题,涵盖其起源、行为、解剖学等方面。answer:问题的对应答案,源自详细文档。
- 模式:
question:文本(字符串)answer:文本(字符串)
- 数据分割:数据集作为一个单一文件提供,没有预定义的训练、验证或测试分割。
数据集创建
数据来源
数据源自关于Glimmerfox的详细文档部分,这是一个虚构的合成物种。每个问题-答案对提供了关于Glimmerfox各种特征的教育和创意见解。
数据收集和处理
数据通过分析涵盖Glimmerfox分类学、解剖学、行为和生态学方面的详细文档生成。由于数据是合成的且基于受控内容,因此不需要过滤或归一化。
数据生产者
源数据由数据集的策展人使用虚构场景和合成生物学概念创建。
个人信息和敏感信息
该数据集不包含任何个人、敏感或私人信息。所有数据均为虚构和教育性质。
偏见、风险和局限性
- 该数据集是虚构的,可能不适用于需要真实世界事实数据的应用。
- 它不适用于需要大规模数据集或敏感个人数据分析的任务。
引用
BibTeX:
@dataset{glimmerfox, title={Glimmerfox Knowledge Base - Q&A Dataset}, author={Maksym Bilozorov}, year={2024}, howpublished={Hugging Face}, url={https://huggingface.co/datasets/glimmerfox} }
数据集卡片联系
bilozorov[аt]gmail.com




