five

Tough Tables

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/Tough_Tables
下载链接
链接失效反馈
官方服务:
资源简介:
ToughTables (2T) 数据集是为 SemTab 挑战创建的,总共包括 180 个表。该数据集中的表可以分为两组:控制 (CTRL) 组表和严格 (TOUGH) 组表。 CTRL 组包含 60 个通过查询 DBpedia SPARQL 端点生成的表和从 Wikipedia 收集的表,它们的特点是易于注释。 TOUGH 组包含 120 个表格,主要是从网络上抓取的,其中一些包含拼写错误的单词和昵称/同音词,它们的特点是难以注释。在这两个组中,作者生成了一些表格,他们在收集的表格中添加了噪音。使用 DBpedia (DBP) 类型和实体以及 WikiData (WD) 为两个任务对数据集进行了注释:列类型注释 (CTA) 和单元实体注释 (CEA)。在下表中列出了为 CTA 注释的列数和为 CEA 任务注释的单元格数以及使用的类数。注释类 DBP-列类型注释 540 39 DBP-单元实体注释 663,656 16,023 WD-列类型注释 540 276 WD-单元实体注释 667,244 24,653
提供机构:
OpenDataLab
创建时间:
2022-09-01
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作