TekGen

Name: TekGen
Creator: OpenDataLab
Published: 2026-05-17 08:30:10
License: 暂无描述

OpenDataLab2026-05-17 更新2024-05-09 收录

下载链接：

https://opendatalab.org.cn/OpenDataLab/TekGen

下载链接

链接失效反馈

官方服务：

资源简介：

数据集是 KELM 语料库的一部分这是 Wikipedia text--Wikidata KG 对齐语料库，用于训练数据到文本生成模型。请注意，这是通过远程监督生成的语料库，不应作为评估的黄金标准。它由 3 个文件组成： https://storage.googleapis.com/gresearch/kelm-corpus/updated-2021/quadruples-train.tsv https://storage.googleapis.com/gresearch/kelm-corpus/updated-2021 /quadruples-validation.tsv https://storage.googleapis.com/gresearch/kelm-corpus/updated-2021/quadruples-test.tsv 每个文件每行包含一个示例。每个示例都是一个包含三个字段的 json 对象：三元组：形式为三元组的列表（主题、关系、对象）。例如。（X 人，获得的奖项，Y 奖）。如果三元组有一个子属性，那么它是四元组。例如。（X 人，Y 奖，于 Z 日收到）。序列化三元组：连接在一起的三元组，用于 T5 的输入。格式为“<subject><relation><object> “有些主体有多重关系，例如”<subject><relation1><object1><relation2><object2><relation3><object3> ”。有关这些关系如何分组的更多详细信息，请参阅论文。句子：与这些三元组对齐的维基百科句子。实体的名称、别名和 Wikidata Id 可以在 https://storage.googleapis 中找到。 com/gresearch/kelm-corpus/updated-2021/entities.jsonl。

提供机构：

OpenDataLab

创建时间：

2022-05-23

搜集汇总

数据集介绍

背景与挑战

背景概述

TekGen是KELM语料库的一部分，基于Wikipedia与Wikidata知识图谱对齐，通过远程监督生成，用于训练数据到文本生成模型，支持ChatGPT预训练等自然语言处理任务。数据集包含三个TSV文件，总规模为3.1GB，由宾夕法尼亚大学和Google Research于2021年发布，采用CC BY-SA 2.0许可证。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集