five

AgoraX/AIEC-140K

收藏
Hugging Face2024-01-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AgoraX/AIEC-140K
下载链接
链接失效反馈
官方服务:
资源简介:
AgoraX/AIEC-140K数据集是一个包含140,000个高质量AI工程代码标记的集合,这些标记是从GitHub上的多个仓库中抓取的,主要来自OpenAI、Nvidia、Google、Lucidrains等顶级研究实验室。数据集中的每个代码标记都是AI工程代码中的一个原子单位,代表一个有意义的实体。该数据集不包含完整的代码片段或文件,而是专注于单个标记,以便于在各种下游任务中集成和使用。数据集的主要用途包括训练语言模型、预训练和微调神经网络、代码补全和建议系统以及分析和理解AI工程中的代码模式和趋势。

AgoraX/AIEC-140K数据集是一个包含140,000个高质量AI工程代码标记的集合,这些标记是从GitHub上的多个仓库中抓取的,主要来自OpenAI、Nvidia、Google、Lucidrains等顶级研究实验室。数据集中的每个代码标记都是AI工程代码中的一个原子单位,代表一个有意义的实体。该数据集不包含完整的代码片段或文件,而是专注于单个标记,以便于在各种下游任务中集成和使用。数据集的主要用途包括训练语言模型、预训练和微调神经网络、代码补全和建议系统以及分析和理解AI工程中的代码模式和趋势。
提供机构:
AgoraX
原始信息汇总

AgoraX/AIEC-140K 数据集

简介

AgoraX/AIEC-140K 数据集是一个包含140,000个AI工程代码标记的集合,这些标记来自OpenAI、Nvidia、Google、Lucidrains等顶级研究实验室。这些标记是从GitHub上的各种仓库中抓取的,为人工智能领域的研究人员和开发者提供了一个宝贵的资源。

数据集详情

  • 数据集名称: AgoraX/AIEC-140K
  • 总样本数: 140,000

数据格式

数据集主要由代码标记组成,这些标记是代码的原子单位。每个代码标记是一个单词或字符,代表AI工程代码中的一个有意义的实体。这些标记来自不同的仓库,确保了样本的多样性。

数据来源

AgoraX/AIEC-140K 数据集中的代码标记是从GitHub上的各种仓库中抓取的。包括OpenAI、Nvidia、Google、Lucidrains等知名研究实验室都为该数据集做出了贡献。

用途

AgoraX/AIEC-140K 数据集对于AI工程领域的研究人员、开发者和从业者来说是一个宝贵的资源。该数据集可用于多种目的,包括但不限于:

  • 训练用于代码生成的语言模型
  • 预训练和微调神经网络
  • 代码完成和建议系统
  • 理解和分析AI工程中的代码模式和趋势

引用

如果您在研究工作中使用了AgoraX/AIEC-140K数据集,请考虑使用以下BibTeX引用:

@dataset{agorax/aiec140k, author = {AgoraX Team}, title = {AgoraX/AIEC-140K Dataset}, year = {2022}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/agorax/aiec-140k} }

许可证

AgoraX/AIEC-140K 数据集在MIT许可证下发布。更多详情请参阅数据集仓库中的LICENSE文件。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作