five

WikiSection

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/WikiSection
下载链接
链接失效反馈
官方服务:
资源简介:
一个公开可用的数据集,包含来自两个不同领域的 242k 个英语和德语标记部分:疾病和城市。在搜索信息时,人类读者首先浏览文档,发现相关部分,然后专注于几个句子以解决她的意图。然而,文档结构的高度差异使得一目了然地识别给定部分的突出主题变得复杂。为了应对这一挑战,我们提出了 SECTOR,这是一种通过将文档分割成连贯的部分并为每个部分分配主题标签来支持机器阅读系统的模型。我们的深度神经网络架构学习在文档过程中嵌入的潜在主题。这可以用来从纯文本中对本地主题进行分类,并在主题转移时分割文档。此外,我们还贡献了 WikiSection,这是一个公开可用的数据集,包含来自两个不同领域的 242k 个英语和德语标记部分:疾病和城市。根据我们对 20 种架构的广泛评估,我们报告了英国城市领域 30 个主题的分割和分类的最高分数为 71.6% F1,由我们的 SECTOR LSTM 模型与布隆过滤器嵌入和双向分割打分。与具有基线分割的最先进的 CNN 分类器相比,这是 29.5 点 F1 的显着改进。
提供机构:
OpenDataLab
创建时间:
2022-06-28
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作