CEREC (Corpus for Entity Resolution in Email Conversations)
收藏OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/CEREC
下载链接
链接失效反馈官方服务:
资源简介:
CEREC 是用于电子邮件对话中实体解析的大规模语料库。该语料库由来自安然电子邮件语料库的 6001 个电子邮件线程组成,其中包含 36,448 条电子邮件消息和 60,383 个实体共指链。注释分两步执行,人工操作最少。
CEREC is a large-scale corpus for entity resolution in email conversations. This corpus consists of 6,001 email threads sourced from the Enron Email Corpus, containing 36,448 email messages and 60,383 entity coreference chains. Annotation was performed in two steps with minimal human intervention.
提供机构:
OpenDataLab
创建时间:
2022-05-23
搜集汇总
数据集介绍

背景与挑战
背景概述
CEREC是一个专用于电子邮件对话中实体解析的大规模语料库,基于安然电子邮件语料库构建,包含6001个邮件线程、超过3.6万条消息和6万个实体共指链,注释过程自动化程度高。该数据集由德克萨斯大学达拉斯分校于2021年发布,旨在支持自然语言处理中的信息提取和关系抽取任务。
以上内容由遇见数据集搜集并总结生成



