Datasets

github2024-08-09 更新2024-08-10 收录

下载链接：

https://github.com/Open-Paws/Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库包含与素食主义和/或动物权利相关的数据集，旨在用于开发符合动物倡导伦理考虑的AI系统和工具。这些数据集可用于收集进一步的人类反馈，直接用于训练或微调AI和ML模型，或存储在数据库中以供检索增强生成。

This repository contains datasets related to vegetarianism and/or animal rights, which are intended for developing AI systems and tools that adhere to the ethical considerations of animal advocacy. These datasets can be used to collect additional human feedback, directly train or fine-tune AI and ML models, or be stored in databases for retrieval-augmented generation.

创建时间：

2024-07-15

原始信息汇总

数据集概述

本仓库包含与素食主义和/或动物权利相关的数据集。这些数据集旨在用于开发符合动物倡导伦理考虑的AI系统和工具。它们可用于进一步收集人类反馈、直接用于训练或微调AI和ML模型，或存储在数据库中以进行检索增强生成。

仓库结构

仓库按不同数据源组织，每个源都有自己的目录。这种结构便于轻松导航和管理各种数据集。

data_source_1/: 第一个数据源的数据集目录。
data_source_2/: 第二个数据源的数据集目录。
LICENSE: 关于本仓库许可的信息。
README.md: 本文件，提供仓库及其内容的概述。

每个目录可能包含：

原始数据文件，格式如CSV、JSON或XML。
可直接用于机器学习模型的处理后数据。
用于数据收集和处理的脚本，特别是使用CRITERIA评分过滤的大型数据集。
描述数据及其与素食主义和/或动物权利相关性的文档文件。

CRITERIA评分

对于已过滤的大型数据集，我们使用以下CRITERIA评分来评估和记录数据质量：

文化敏感性：
- 文化包容性 (1)：内容尊重多元文化视角，采用文化敏感的方法进行动物倡导。
- 适度包容性 (0.5)：内容总体上尊重文化多样性，但可能缺乏文化敏感性的深度。
- 文化不敏感 (0)：内容缺乏对文化多样性的尊重，未采用文化敏感的方法。
相关性：
- 高度相关 (1)：内容直接与素食主义、动物权利、素食生活方式、植物性饮食、动物福利、动物的伦理对待或动物权利倡导相关。
- 适度相关 (0.5)：内容通过更广泛的伦理、饮食或可持续发展讨论间接与素食主义和动物权利相关。
- 不相关 (0)：内容与素食主义或动物权利无关。
洞察力：
- 高度洞察力 (1)：内容提供深刻、原创的见解，显著推进对素食主义或动物倡导的理解。
- 适度洞察力 (0.5)：内容提供有用的见解，增强理解，但可能不是特别原创。
- 无独特见解 (0)：内容未提供有意义的见解或重复已知信息。
可信度：
- 高度可信 (1)：信息准确、经过充分研究，来自可信来源。
- 适度可信 (0.5)：信息总体准确，但可能包含一些次要错误或可疑来源。
- 不可信 (0)：信息不准确、误导或基于不可信来源。
情感影响：
- 非常情感影响 (1)：内容有效地引发同理心和情感参与。
- 适度情感影响 (0.5)：内容引发一些情感参与，但可能缺乏深度。
- 无情感影响 (0)：内容未能引发任何情感反应。
理性：
- 非常理性 (1)：内容逻辑一致、推理充分，并得到证据支持。
- 适度理性 (0.5)：内容总体理性，但可能包含一些逻辑不一致或弱论点。
- 不理性 (0)：内容缺乏逻辑一致性和合理推理。
影响力：
- 高度可能影响行为 (1)：内容有很大潜力鼓励行动和生活方式改变。
- 适度可能影响行为 (0.5)：内容有一定潜力影响行为，但可能不够引人注目以推动重大改变。
- 不太可能影响行为 (0)：内容不太可能影响任何行为改变。
一致性：
- 高度一致 (1)：内容与素食主义和动物权利的伦理原则和核心价值观高度一致。
- 适度一致 (0.5)：内容支持素食伦理的某些方面，但可能包含中性或略矛盾的元素。
- 不一致 (0)：内容与素食原则相矛盾或漠不关心。

注意，CRITERIA评分仅在过滤现有数据集时应用，并非所有数据集都包含此评分。我们主要关注CRITERIA评分中的相关性元素。

对于从动物倡导组织或手动抓取的公开可用素食特定数据中策划的新数据集，可能不包含CRITERIA评分，因为其与素食主义和/或动物权利的相关性已通过人工确认。

还应注意，CRITERIA评分目前通过简单提示生成，因此并不总是完全准确。它在基本过滤方面效果良好，但应谨慎对待。随着我们从动物倡导者那里收集更多人类反馈数据，我们将调整更准确的模型来生成这些评分。

许可

本仓库中的所有数据均为开源，使用Apache 2.0或MIT等宽松许可。贡献者添加的数据也必须包含宽松许可。在数据抓取或使用现有数据集的情况下，必须包含宽松许可的证明。对于人类生成的数据，必须包含许可证明。

贡献

我们欢迎社区贡献！以下是贡献方式：

Fork仓库：点击页面右上角的“Fork”按钮，在你的GitHub账户中创建仓库的副本。
克隆你的fork： bash git clone https://github.com/your-username/Datasets.git cd Datasets
创建分支： bash git checkout -b my-new-branch
进行更改：添加你的数据集或进行改进。
提交更改： bash git add . git commit -m "Add new datasets from XYZ source"
推送至你的分支： bash git push origin my-new-branch
创建Pull Request：从你的分支向主仓库发起Pull Request。提供更改的清晰描述和任何相关细节。

贡献指南

确保你的数据集与素食主义和/或动物权利相关。
为每个数据集提供清晰的文档，包括来源信息、数据格式和任何预处理步骤。
遵循现有目录结构，为每个数据源创建新文件夹。
遵守许可条款，确保你贡献的数据合法可共享。对于抓取或现有数据集，包含宽松许可的证明，或对于人类生成的数据，包含许可证明。

注意，在过滤现有数据集时，我们主要关注CRITERIA评分中的相关性元素。即使质量较低或不一致的内容也可用于收集人类反馈，以训练AI避免此类响应。然而，所有内容至少应是领域特定的，并与主题相关，因为无关数据不会对项目有所帮助。

使用

这些数据集可用于多种目的，包括但不限于：

训练支持素食主义和动物权利的AI模型。
伦理AI领域的研究和开发。
促进对素食主义和动物权利认识的教育目的。

入门

克隆仓库： bash git clone https://github.com/Open-Paws/Datasets.git
导航至仓库目录： bash cd Datasets
探索每个数据源目录中可用的数据集。

联系

如有任何问题或咨询，请在仓库中打开一个问题或直接联系维护者。

致谢

我们对所有贡献者和支持者表示感谢，他们帮助策划和维护这些数据集。

Open Paws - 通过伦理AI推进动物权利。

搜集汇总

数据集介绍

构建方式

该数据集的构建方式体现了对动物权益和素食主义伦理考量的深刻关注。数据集从多个数据源中精心筛选，每个数据源都有其独立的目录，便于管理和导航。对于大规模数据集，采用了CRITERIA评分系统进行过滤，该系统从文化敏感性、相关性、洞察力、可信度、情感影响、理性、影响力和原则一致性八个维度评估数据质量。值得注意的是，CRITERIA评分目前通过简单的提示生成，可能存在不准确性，但足以进行基本筛选。未来，随着更多人类反馈数据的收集，将训练更精确的模型来生成这些评分。

特点

该数据集的显著特点在于其高度相关性和文化敏感性。数据集聚焦于素食主义和动物权益，确保内容与这些核心议题紧密相关。此外，数据集的多样性体现在其涵盖了多种语言，尽管受限于资源，目前仅覆盖了部分语言，但欢迎更多语言的加入。数据集的开放性和社区参与性也是其重要特点，鼓励社区成员贡献数据，并确保所有数据符合开源许可。

使用方法

该数据集适用于多种用途，包括但不限于训练支持素食主义和动物权益的AI模型，进行伦理AI领域的研究和开发，以及用于教育目的，提升公众对素食主义和动物权益的认知。使用者可以通过克隆GitHub仓库并导航至相应目录来访问数据集。对于新数据的贡献，建议遵循现有的目录结构，并提供清晰的文档，确保数据的相关性和合法性。

背景与挑战

背景概述

Datasets数据集由Open Paws机构主导创建，专注于收集与素食主义和动物权利相关的数据。该数据集的构建旨在支持开发符合动物保护伦理的AI系统和工具，通过这些数据集，研究人员可以进一步收集人类反馈，直接用于训练或微调AI与机器学习模型，或存储于数据库中以供检索增强生成。自创建以来，Datasets已成为推动伦理AI研究和动物权利倡导的重要资源，其影响力在相关领域逐渐显现。

当前挑战

Datasets数据集在构建过程中面临多项挑战。首先，数据的文化敏感性和相关性评估需通过CRITERIA评分系统进行，该系统虽有助于基本筛选，但其准确性受限于当前的生成模型，需进一步优化。其次，语言多样性问题亦是挑战之一，尽管项目已选择最可能找到相关数据的语言，但覆盖所有7000多种官方认可的语言仍不现实。此外，确保所有数据符合开源许可并具有合法共享性，也是数据集维护中的重要挑战。

常用场景

经典使用场景

该数据集的经典使用场景主要集中在开发与素食主义和动物权利相关的AI系统。通过这些数据集，研究者可以训练和微调机器学习模型，以确保其输出与动物保护伦理相一致。例如，这些数据集可用于构建能够识别和分类与素食主义和动物权利相关内容的模型，从而在社交媒体监控、内容推荐系统等领域发挥重要作用。

解决学术问题

该数据集解决了在素食主义和动物权利领域中，如何利用AI技术进行有效伦理倡导的学术问题。通过提供高质量、文化敏感且与主题高度相关的数据，该数据集有助于推动AI模型在处理此类敏感话题时的准确性和可靠性。这不仅提升了AI在伦理倡导中的应用效果，也为相关领域的研究提供了宝贵的资源。

衍生相关工作

基于该数据集，已衍生出多项经典工作，包括开发用于素食主义和动物权利倡导的AI模型、研究如何通过AI技术提升公众对这些议题的认知等。例如，有研究利用该数据集训练情感分析模型，以评估公众对素食主义和动物权利相关内容的情感反应，从而优化倡导策略。此外，还有工作探讨了如何通过AI技术增强跨文化交流中的动物权利倡导效果。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集