five

conll2000

收藏
Opencsg2024-07-19 更新2025-05-03 收录
下载链接:
https://www.opencsg.com/datasets/AIWizards/conll2000
下载链接
链接失效反馈
官方服务:
资源简介:
CoNLL-2000旨在将文本划分为在语法上相关的词语部分,用于组块分析任务,是CoNLL-2000的共享任务。它包含从华尔街日报语料库(WSJ)中划分的数据,其中训练数据包含8937个样本,测试数据包含2013个样本。每个样本包括id、tokens、词性标签(pos_tags)和组块标签(chunk_tags)等字段。CoNLL-2000提供文本组块分析所需的数据,但关于数据的来源、标注过程、授权许可等详细信息缺失。
创建时间:
2024-07-19
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
CoNLL-2000是一个用于组块分析任务的数据集,旨在将文本划分为语法相关的词语部分。它基于华尔街日报语料库(WSJ),包含8937个训练样本和2013个测试样本,每个样本提供tokens、词性标签和组块标签。数据标注通过自动化程序从WSJ语料库派生,适用于自然语言处理中的组块分析研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作