AgoraX/AIEC-140K
收藏Hugging Face2024-01-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AgoraX/AIEC-140K
下载链接
链接失效反馈官方服务:
资源简介:
AgoraX/AIEC-140K数据集是一个包含140,000个高质量AI工程代码标记的集合,这些标记是从GitHub上的多个仓库中抓取的,主要来自OpenAI、Nvidia、Google、Lucidrains等顶级研究实验室。数据集中的每个代码标记都是AI工程代码中的一个原子单位,代表一个有意义的实体。该数据集不包含完整的代码片段或文件,而是专注于单个标记,以便于在各种下游任务中集成和使用。数据集的主要用途包括训练语言模型、预训练和微调神经网络、代码补全和建议系统以及分析和理解AI工程中的代码模式和趋势。
AgoraX/AIEC-140K数据集是一个包含140,000个高质量AI工程代码标记的集合,这些标记是从GitHub上的多个仓库中抓取的,主要来自OpenAI、Nvidia、Google、Lucidrains等顶级研究实验室。数据集中的每个代码标记都是AI工程代码中的一个原子单位,代表一个有意义的实体。该数据集不包含完整的代码片段或文件,而是专注于单个标记,以便于在各种下游任务中集成和使用。数据集的主要用途包括训练语言模型、预训练和微调神经网络、代码补全和建议系统以及分析和理解AI工程中的代码模式和趋势。
提供机构:
AgoraX
原始信息汇总
AgoraX/AIEC-140K 数据集
简介
AgoraX/AIEC-140K 数据集是一个包含140,000个AI工程代码标记的集合,这些标记来自OpenAI、Nvidia、Google、Lucidrains等顶级研究实验室。这些标记是从GitHub上的各种仓库中抓取的,为人工智能领域的研究人员和开发者提供了一个宝贵的资源。
数据集详情
- 数据集名称: AgoraX/AIEC-140K
- 总样本数: 140,000
数据格式
数据集主要由代码标记组成,这些标记是代码的原子单位。每个代码标记是一个单词或字符,代表AI工程代码中的一个有意义的实体。这些标记来自不同的仓库,确保了样本的多样性。
数据来源
AgoraX/AIEC-140K 数据集中的代码标记是从GitHub上的各种仓库中抓取的。包括OpenAI、Nvidia、Google、Lucidrains等知名研究实验室都为该数据集做出了贡献。
用途
AgoraX/AIEC-140K 数据集对于AI工程领域的研究人员、开发者和从业者来说是一个宝贵的资源。该数据集可用于多种目的,包括但不限于:
- 训练用于代码生成的语言模型
- 预训练和微调神经网络
- 代码完成和建议系统
- 理解和分析AI工程中的代码模式和趋势
引用
如果您在研究工作中使用了AgoraX/AIEC-140K数据集,请考虑使用以下BibTeX引用:
@dataset{agorax/aiec140k, author = {AgoraX Team}, title = {AgoraX/AIEC-140K Dataset}, year = {2022}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/agorax/aiec-140k} }
许可证
AgoraX/AIEC-140K 数据集在MIT许可证下发布。更多详情请参阅数据集仓库中的LICENSE文件。



