StampyAI/alignment-research-dataset
收藏Hugging Face2023-11-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/StampyAI/alignment-research-dataset
下载链接
链接失效反馈官方服务:
资源简介:
AI对齐研究数据集是一个与AI对齐和安全相关的文档集合,涵盖了来自各种书籍、研究论文和对齐相关博客文章的内容。该数据集仍在开发中,部分内容正在进行清理过程,以便更定期地更新。数据集包含多种特征,如id、来源、标题、文本、url、发布日期、作者等。该数据集适用于问答任务,且仅提供英文版本。README文件还提供了如何下载和使用数据集的信息,其局限性和偏见,以及如何为其开发做出贡献的说明。
AI对齐研究数据集是一个与AI对齐和安全相关的文档集合,涵盖了来自各种书籍、研究论文和对齐相关博客文章的内容。该数据集仍在开发中,部分内容正在进行清理过程,以便更定期地更新。数据集包含多种特征,如id、来源、标题、文本、url、发布日期、作者等。该数据集适用于问答任务,且仅提供英文版本。README文件还提供了如何下载和使用数据集的信息,其局限性和偏见,以及如何为其开发做出贡献的说明。
提供机构:
StampyAI
原始信息汇总
数据集概述
数据集名称
- AI Alignment Research Dataset
数据集描述
- 该数据集包含与AI对齐和安全相关的文档,来源包括书籍、研究论文和相关博客文章。目前仍在进行清理和更新过程。
数据集特征
- 基本特征:
- id: 字符串,唯一标识符
- source: 字符串,数据来源
- title: 字符串,文档标题
- text: 大型字符串,文档内容
- url: 字符串,文档内容的有效链接
- date_published: 字符串,UTC格式的发布日期
- authors: 字符串序列,作者列表
- summary: 字符串序列,摘要
- source_type: 字符串,来源类型
- book_title: 字符串,书籍标题
- karma: 整数,Karma值
- votes: 整数,投票数
- words: 整数,字数
- comment_count: 整数,评论数
- tags: 字符串序列,标签
- modified_at: 字符串,最后修改日期
- alias: 字符串,别名
- data_last_modified: 字符串,数据最后修改日期
- abstract: 字符串,摘要
- author_comment: 字符串,作者评论
- journal_ref: 字符串,期刊引用
- doi: 字符串,数字对象唯一标识符
- primary_category: 字符串,主要类别
- categories: 字符串序列,类别列表
- initial_source: 字符串,初始来源
- bibliography_bib: 序列,包含title字段,类型为字符串
数据集大小
- 训练集:
- 字节数: 471644446
- 示例数: 14271
- 下载大小:484827959字节
- 数据集大小:471644446字节
数据集来源
- 包括多个在线资源,如arXiv、博客、YouTube频道等,具体列表见README文件。
使用方法
- 通过
load_dataset函数加载数据集,可指定特定来源进行加载。
注意事项
- 数据集中的LessWrong帖子内容偏向于末日和存在风险,使用时需注意。
贡献和维护
- 数据集的生成脚本已在GitHub上开源,由StampyAI/AI Safety Info的志愿者维护。



