xusenlin/cmeee
收藏Hugging Face2022-12-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/xusenlin/cmeee
下载链接
链接失效反馈官方服务:
资源简介:
CMeEE是一个中文医学命名实体识别数据集,包含文本和实体信息。实体信息包括实体的ID、实体字符串、起始位置、结束位置和标签。数据集分为训练集、测试集和验证集,分别包含15000、3000和5000个样本。
提供机构:
xusenlin
原始信息汇总
数据集概述
数据集名称
CMeEE 中文医学命名实体识别数据集
数据集特征
- text: 字符串类型,表示文本内容。
- entities: 列表类型,包含以下子特征:
- id: 整数类型,表示实体的唯一标识。
- entity: 字符串类型,表示实体对应的字符串。
- start_offset: 整数类型,表示实体开始位置。
- end_offset: 整数类型,表示实体结束位置的下一位。
- label: 字符串类型,表示实体对应的开始位置。
数据集分割
- train: 包含15000个示例,总大小为5289666字节。
- test: 包含3000个示例,总大小为461472字节。
- validation: 包含5000个示例,总大小为1752698字节。
数据集大小
- 下载大小: 3359069字节
- 数据集总大小: 7503836字节



