five

TekGen

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/TekGen
下载链接
链接失效反馈
官方服务:
资源简介:
数据集是 KELM 语料库的一部分 这是 Wikipedia text--Wikidata KG 对齐语料库,用于训练数据到文本生成模型。请注意,这是通过远程监督生成的语料库,不应作为评估的黄金标准。它由 3 个文件组成: https://storage.googleapis.com/gresearch/kelm-corpus/updated-2021/quadruples-train.tsv https://storage.googleapis.com/gresearch/kelm-corpus/updated-2021 /quadruples-validation.tsv https://storage.googleapis.com/gresearch/kelm-corpus/updated-2021/quadruples-test.tsv 每个文件每行包含一个示例。每个示例都是一个包含三个字段的 json 对象:三元组:形式为三元组的列表(主题、关系、对象)。例如。 (X 人,获得的奖项,Y 奖)。如果三元组有一个子属性,那么它是四元组。例如。 (X 人,Y 奖,于 Z 日收到)。序列化三元组:连接在一起的三元组,用于 T5 的输入。格式为“<subject><relation><object> “有些主体有多重关系,例如”<subject><relation1><object1><relation2><object2><relation3><object3> ”。有关这些关系如何分组的更多详细信息,请参阅论文。句子:与这些三元组对齐的维基百科句子。实体的名称、别名和 Wikidata Id 可以在 https://storage.googleapis 中找到。 com/gresearch/kelm-corpus/updated-2021/entities.jsonl。
提供机构:
OpenDataLab
创建时间:
2022-05-23
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作