five

DEFT corpus

收藏
arXiv2020-08-31 更新2024-06-21 收录
下载链接:
https://github.com/adobe-research/deft corpus
下载链接
链接失效反馈
官方服务:
资源简介:
DEFT corpus是由Adobe Inc.创建的一个专门用于定义提取的大型综合性数据集。该数据集从cnx.org和SEC EDGAR数据库中收集数据,主要包含来自教科书的句子及其上下文窗口。数据集的创建过程涉及从原始文本中提取句子,并进行复杂的语法和语义构造分析。DEFT corpus的应用领域主要集中在自然语言处理中的定义提取任务,旨在解决从自由文本中提取定义的复杂问题。

The DEFT corpus is a large-scale comprehensive dataset developed by Adobe Inc. specifically for definition extraction tasks. It draws data from cnx.org and the SEC EDGAR database, and primarily comprises sentences from textbooks along with their surrounding context windows. The dataset's construction process involves extracting sentences from raw texts and conducting sophisticated syntactic and semantic structural analyses. The DEFT corpus is mainly applied to the definition extraction task in natural language processing, aiming to address the complex problem of extracting definitions from free-form texts.
提供机构:
Adobe Inc.
创建时间:
2020-08-31
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作