five

StampyAI/alignment-research-dataset

收藏
Hugging Face2023-11-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/StampyAI/alignment-research-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
AI对齐研究数据集是一个与AI对齐和安全相关的文档集合,涵盖了来自各种书籍、研究论文和对齐相关博客文章的内容。该数据集仍在开发中,部分内容正在进行清理过程,以便更定期地更新。数据集包含多种特征,如id、来源、标题、文本、url、发布日期、作者等。该数据集适用于问答任务,且仅提供英文版本。README文件还提供了如何下载和使用数据集的信息,其局限性和偏见,以及如何为其开发做出贡献的说明。

AI对齐研究数据集是一个与AI对齐和安全相关的文档集合,涵盖了来自各种书籍、研究论文和对齐相关博客文章的内容。该数据集仍在开发中,部分内容正在进行清理过程,以便更定期地更新。数据集包含多种特征,如id、来源、标题、文本、url、发布日期、作者等。该数据集适用于问答任务,且仅提供英文版本。README文件还提供了如何下载和使用数据集的信息,其局限性和偏见,以及如何为其开发做出贡献的说明。
提供机构:
StampyAI
原始信息汇总

数据集概述

数据集名称

  • AI Alignment Research Dataset

数据集描述

  • 该数据集包含与AI对齐和安全相关的文档,来源包括书籍、研究论文和相关博客文章。目前仍在进行清理和更新过程。

数据集特征

  • 基本特征
    • id: 字符串,唯一标识符
    • source: 字符串,数据来源
    • title: 字符串,文档标题
    • text: 大型字符串,文档内容
    • url: 字符串,文档内容的有效链接
    • date_published: 字符串,UTC格式的发布日期
    • authors: 字符串序列,作者列表
    • summary: 字符串序列,摘要
    • source_type: 字符串,来源类型
    • book_title: 字符串,书籍标题
    • karma: 整数,Karma值
    • votes: 整数,投票数
    • words: 整数,字数
    • comment_count: 整数,评论数
    • tags: 字符串序列,标签
    • modified_at: 字符串,最后修改日期
    • alias: 字符串,别名
    • data_last_modified: 字符串,数据最后修改日期
    • abstract: 字符串,摘要
    • author_comment: 字符串,作者评论
    • journal_ref: 字符串,期刊引用
    • doi: 字符串,数字对象唯一标识符
    • primary_category: 字符串,主要类别
    • categories: 字符串序列,类别列表
    • initial_source: 字符串,初始来源
    • bibliography_bib: 序列,包含title字段,类型为字符串

数据集大小

  • 训练集
    • 字节数: 471644446
    • 示例数: 14271
  • 下载大小:484827959字节
  • 数据集大小:471644446字节

数据集来源

  • 包括多个在线资源,如arXiv、博客、YouTube频道等,具体列表见README文件。

使用方法

  • 通过load_dataset函数加载数据集,可指定特定来源进行加载。

注意事项

  • 数据集中的LessWrong帖子内容偏向于末日和存在风险,使用时需注意。

贡献和维护

  • 数据集的生成脚本已在GitHub上开源,由StampyAI/AI Safety Info的志愿者维护。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作