Datasets
收藏数据集概述
本仓库包含与素食主义和/或动物权利相关的数据集。这些数据集旨在用于开发符合动物倡导伦理考虑的AI系统和工具。它们可用于进一步收集人类反馈、直接用于训练或微调AI和ML模型,或存储在数据库中以进行检索增强生成。
仓库结构
仓库按不同数据源组织,每个源都有自己的目录。这种结构便于轻松导航和管理各种数据集。
data_source_1/: 第一个数据源的数据集目录。data_source_2/: 第二个数据源的数据集目录。LICENSE: 关于本仓库许可的信息。README.md: 本文件,提供仓库及其内容的概述。
每个目录可能包含:
- 原始数据文件,格式如CSV、JSON或XML。
- 可直接用于机器学习模型的处理后数据。
- 用于数据收集和处理的脚本,特别是使用CRITERIA评分过滤的大型数据集。
- 描述数据及其与素食主义和/或动物权利相关性的文档文件。
CRITERIA评分
对于已过滤的大型数据集,我们使用以下CRITERIA评分来评估和记录数据质量:
- 文化敏感性:
- 文化包容性 (1):内容尊重多元文化视角,采用文化敏感的方法进行动物倡导。
- 适度包容性 (0.5):内容总体上尊重文化多样性,但可能缺乏文化敏感性的深度。
- 文化不敏感 (0):内容缺乏对文化多样性的尊重,未采用文化敏感的方法。
- 相关性:
- 高度相关 (1):内容直接与素食主义、动物权利、素食生活方式、植物性饮食、动物福利、动物的伦理对待或动物权利倡导相关。
- 适度相关 (0.5):内容通过更广泛的伦理、饮食或可持续发展讨论间接与素食主义和动物权利相关。
- 不相关 (0):内容与素食主义或动物权利无关。
- 洞察力:
- 高度洞察力 (1):内容提供深刻、原创的见解,显著推进对素食主义或动物倡导的理解。
- 适度洞察力 (0.5):内容提供有用的见解,增强理解,但可能不是特别原创。
- 无独特见解 (0):内容未提供有意义的见解或重复已知信息。
- 可信度:
- 高度可信 (1):信息准确、经过充分研究,来自可信来源。
- 适度可信 (0.5):信息总体准确,但可能包含一些次要错误或可疑来源。
- 不可信 (0):信息不准确、误导或基于不可信来源。
- 情感影响:
- 非常情感影响 (1):内容有效地引发同理心和情感参与。
- 适度情感影响 (0.5):内容引发一些情感参与,但可能缺乏深度。
- 无情感影响 (0):内容未能引发任何情感反应。
- 理性:
- 非常理性 (1):内容逻辑一致、推理充分,并得到证据支持。
- 适度理性 (0.5):内容总体理性,但可能包含一些逻辑不一致或弱论点。
- 不理性 (0):内容缺乏逻辑一致性和合理推理。
- 影响力:
- 高度可能影响行为 (1):内容有很大潜力鼓励行动和生活方式改变。
- 适度可能影响行为 (0.5):内容有一定潜力影响行为,但可能不够引人注目以推动重大改变。
- 不太可能影响行为 (0):内容不太可能影响任何行为改变。
- 一致性:
- 高度一致 (1):内容与素食主义和动物权利的伦理原则和核心价值观高度一致。
- 适度一致 (0.5):内容支持素食伦理的某些方面,但可能包含中性或略矛盾的元素。
- 不一致 (0):内容与素食原则相矛盾或漠不关心。
注意,CRITERIA评分仅在过滤现有数据集时应用,并非所有数据集都包含此评分。我们主要关注CRITERIA评分中的相关性元素。
对于从动物倡导组织或手动抓取的公开可用素食特定数据中策划的新数据集,可能不包含CRITERIA评分,因为其与素食主义和/或动物权利的相关性已通过人工确认。
还应注意,CRITERIA评分目前通过简单提示生成,因此并不总是完全准确。它在基本过滤方面效果良好,但应谨慎对待。随着我们从动物倡导者那里收集更多人类反馈数据,我们将调整更准确的模型来生成这些评分。
许可
本仓库中的所有数据均为开源,使用Apache 2.0或MIT等宽松许可。贡献者添加的数据也必须包含宽松许可。在数据抓取或使用现有数据集的情况下,必须包含宽松许可的证明。对于人类生成的数据,必须包含许可证明。
贡献
我们欢迎社区贡献!以下是贡献方式:
-
Fork仓库:点击页面右上角的“Fork”按钮,在你的GitHub账户中创建仓库的副本。
-
克隆你的fork: bash git clone https://github.com/your-username/Datasets.git cd Datasets
-
创建分支: bash git checkout -b my-new-branch
-
进行更改:添加你的数据集或进行改进。
-
提交更改: bash git add . git commit -m "Add new datasets from XYZ source"
-
推送至你的分支: bash git push origin my-new-branch
-
创建Pull Request:从你的分支向主仓库发起Pull Request。提供更改的清晰描述和任何相关细节。
贡献指南
- 确保你的数据集与素食主义和/或动物权利相关。
- 为每个数据集提供清晰的文档,包括来源信息、数据格式和任何预处理步骤。
- 遵循现有目录结构,为每个数据源创建新文件夹。
- 遵守许可条款,确保你贡献的数据合法可共享。对于抓取或现有数据集,包含宽松许可的证明,或对于人类生成的数据,包含许可证明。
注意,在过滤现有数据集时,我们主要关注CRITERIA评分中的相关性元素。即使质量较低或不一致的内容也可用于收集人类反馈,以训练AI避免此类响应。然而,所有内容至少应是领域特定的,并与主题相关,因为无关数据不会对项目有所帮助。
使用
这些数据集可用于多种目的,包括但不限于:
- 训练支持素食主义和动物权利的AI模型。
- 伦理AI领域的研究和开发。
- 促进对素食主义和动物权利认识的教育目的。
入门
-
克隆仓库: bash git clone https://github.com/Open-Paws/Datasets.git
-
导航至仓库目录: bash cd Datasets
-
探索每个数据源目录中可用的数据集。
联系
如有任何问题或咨询,请在仓库中打开一个问题或直接联系维护者。
致谢
我们对所有贡献者和支持者表示感谢,他们帮助策划和维护这些数据集。
Open Paws - 通过伦理AI推进动物权利。




