five

shavarani/SHINRA-5LDS

收藏
Hugging Face2024-05-02 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/shavarani/SHINRA-5LDS
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集最初创建于2018年8月,并在2020年的LREC会议上发布。数据集中包含多个文件:`enes.json`文件包含扩展命名实体层次结构中的注释类;`entity_annotations.json`文件包含日本维基百科页面的手工注释以及等效页面的维基百科页面ID;`data.jsonl`文件结合了前两个文件的信息并包含了下载的维基百科文章;`example_data_reader.py`是一个示例数据读取脚本,旨在加速数据文件的解析和利用。

该数据集最初创建于2018年8月,并在2020年的LREC会议上发布。数据集中包含多个文件:`enes.json`文件包含扩展命名实体层次结构中的注释类;`entity_annotations.json`文件包含日本维基百科页面的手工注释以及等效页面的维基百科页面ID;`data.jsonl`文件结合了前两个文件的信息并包含了下载的维基百科文章;`example_data_reader.py`是一个示例数据读取脚本,旨在加速数据文件的解析和利用。
提供机构:
shavarani
原始信息汇总

数据集概述

数据集创建与发布

  • 创建时间:2018年8月
  • 发布文献:Multi-class Multilingual Classification of Wikipedia Articles Using Extended Named Entity Tag Set in LREC20

数据文件描述

  • enes.json: 包含原始的Extended Named Entity Hierarchy标注类别。
  • entity_annotations.json: 包含对日文维基百科页面的手工标注,以及对应的英文、法文、德文和波斯文维基百科页面的ID(如有对应页面)。
  • data.jsonl: 结合了enes.jsonentity_annotations.json的信息,并包含从维基百科下载的文章,下载时间为2024年4月的最后一周。
  • example_data_reader.py: 提供了一个Python脚本,用于快速解析和使用数据文件。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作