five

DEFT Corpus

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/DEFT_Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
DEFT corpus1由来自两个不同数据源的注释内容组成: 1) 来自公开获得的美国证券交易委员会埃德加 (SEC) 数据库的各种2017 SEC合同文件的2,443句子 (5,324,430令牌),和2) 来自https://cnx.org/开源教科书 (由各种作者,4.0 CC授权) 的21,303个句子 (409,253个令牌),包括生物学,历史,物理学,心理学,经济学,社会学和政府的主题。SEC句子的22% 包含定义,教科书句子的28% 包含定义。我们的整个语料库 (包括两个数据集) 比任何现有的定义提取数据集都要大得多,也要复杂得多 (请参见表1)。
提供机构:
OpenDataLab
创建时间:
2022-06-23
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作