Tough Tables
收藏OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/Tough_Tables
下载链接
链接失效反馈官方服务:
资源简介:
ToughTables (2T) 数据集是为 SemTab 挑战创建的,总共包括 180 个表。该数据集中的表可以分为两组:控制 (CTRL) 组表和严格 (TOUGH) 组表。 CTRL 组包含 60 个通过查询 DBpedia SPARQL 端点生成的表和从 Wikipedia 收集的表,它们的特点是易于注释。 TOUGH 组包含 120 个表格,主要是从网络上抓取的,其中一些包含拼写错误的单词和昵称/同音词,它们的特点是难以注释。在这两个组中,作者生成了一些表格,他们在收集的表格中添加了噪音。使用 DBpedia (DBP) 类型和实体以及 WikiData (WD) 为两个任务对数据集进行了注释:列类型注释 (CTA) 和单元实体注释 (CEA)。在下表中列出了为 CTA 注释的列数和为 CEA 任务注释的单元格数以及使用的类数。注释类 DBP-列类型注释 540 39 DBP-单元实体注释 663,656 16,023 WD-列类型注释 540 276 WD-单元实体注释 667,244 24,653
提供机构:
OpenDataLab
创建时间:
2022-09-01
搜集汇总
数据集介绍

背景与挑战
背景概述
Tough Tables数据集专为SemTab挑战而构建,包含180个表格,分为易于注释的CTRL组和难以注释的TOUGH组。该数据集支持列类型注释和单元实体注释任务,并使用DBpedia和WikiData进行标注。
以上内容由遇见数据集搜集并总结生成



