shavarani/SHINRA-5LDS
收藏Hugging Face2024-05-02 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/shavarani/SHINRA-5LDS
下载链接
链接失效反馈官方服务:
资源简介:
该数据集最初创建于2018年8月,并在2020年的LREC会议上发布。数据集中包含多个文件:`enes.json`文件包含扩展命名实体层次结构中的注释类;`entity_annotations.json`文件包含日本维基百科页面的手工注释以及等效页面的维基百科页面ID;`data.jsonl`文件结合了前两个文件的信息并包含了下载的维基百科文章;`example_data_reader.py`是一个示例数据读取脚本,旨在加速数据文件的解析和利用。
该数据集最初创建于2018年8月,并在2020年的LREC会议上发布。数据集中包含多个文件:`enes.json`文件包含扩展命名实体层次结构中的注释类;`entity_annotations.json`文件包含日本维基百科页面的手工注释以及等效页面的维基百科页面ID;`data.jsonl`文件结合了前两个文件的信息并包含了下载的维基百科文章;`example_data_reader.py`是一个示例数据读取脚本,旨在加速数据文件的解析和利用。
提供机构:
shavarani
原始信息汇总
数据集概述
数据集创建与发布
- 创建时间:2018年8月
- 发布文献:Multi-class Multilingual Classification of Wikipedia Articles Using Extended Named Entity Tag Set in LREC20
数据文件描述
enes.json: 包含原始的Extended Named Entity Hierarchy标注类别。entity_annotations.json: 包含对日文维基百科页面的手工标注,以及对应的英文、法文、德文和波斯文维基百科页面的ID(如有对应页面)。data.jsonl: 结合了enes.json和entity_annotations.json的信息,并包含从维基百科下载的文章,下载时间为2024年4月的最后一周。example_data_reader.py: 提供了一个Python脚本,用于快速解析和使用数据文件。



