TekGen
收藏OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/TekGen
下载链接
链接失效反馈官方服务:
资源简介:
数据集是 KELM 语料库的一部分 这是 Wikipedia text--Wikidata KG 对齐语料库,用于训练数据到文本生成模型。请注意,这是通过远程监督生成的语料库,不应作为评估的黄金标准。它由 3 个文件组成: https://storage.googleapis.com/gresearch/kelm-corpus/updated-2021/quadruples-train.tsv https://storage.googleapis.com/gresearch/kelm-corpus/updated-2021 /quadruples-validation.tsv https://storage.googleapis.com/gresearch/kelm-corpus/updated-2021/quadruples-test.tsv 每个文件每行包含一个示例。每个示例都是一个包含三个字段的 json 对象:三元组:形式为三元组的列表(主题、关系、对象)。例如。 (X 人,获得的奖项,Y 奖)。如果三元组有一个子属性,那么它是四元组。例如。 (X 人,Y 奖,于 Z 日收到)。序列化三元组:连接在一起的三元组,用于 T5 的输入。格式为“<subject><relation><object> “有些主体有多重关系,例如”<subject><relation1><object1><relation2><object2><relation3><object3> ”。有关这些关系如何分组的更多详细信息,请参阅论文。句子:与这些三元组对齐的维基百科句子。实体的名称、别名和 Wikidata Id 可以在 https://storage.googleapis 中找到。 com/gresearch/kelm-corpus/updated-2021/entities.jsonl。
提供机构:
OpenDataLab
创建时间:
2022-05-23
搜集汇总
数据集介绍

背景与挑战
背景概述
TekGen是KELM语料库的一部分,基于Wikipedia与Wikidata知识图谱对齐,通过远程监督生成,用于训练数据到文本生成模型,支持ChatGPT预训练等自然语言处理任务。数据集包含三个TSV文件,总规模为3.1GB,由宾夕法尼亚大学和Google Research于2021年发布,采用CC BY-SA 2.0许可证。
以上内容由遇见数据集搜集并总结生成



