five

CjangCjengh/lightnovel_ner

收藏
Hugging Face2026-03-22 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/CjangCjengh/lightnovel_ner
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: mit task_categories: - translation - text-classification language: - ja - zh - ko - th --- # 轻小说多语言NER翻译对数据集 本数据集包含从日文轻小说及其官方翻译中自动提取的**命名实体识别(NER)翻译对**,涵盖人名、地名、组织名和专有名词四类实体。 ## 数据来源 原始平行语料来自轻小说的**官方翻译版本**: | 语言对 | 目录 | 来源 | |--------|------|------| | 日文→繁体中文 | `ja-zh/` | 台版官方翻译 | | 日文→韩文 | `ja-ko/` | 韩版官方翻译 | | 日文→泰文 | `ja-th/` | 泰版官方翻译 | ## 数据统计 | 语言对 | 系列数 | 卷数 | NER条目数 | PER(人名) | LOC(地名) | ORG(组织) | TERM(术语) | |--------|--------|------|-----------|-------------|-------------|-------------|--------------| | ja-zh | 1,055 | 4,687 | 709,698 | 231,234 | 77,095 | 75,639 | 325,730 | | ja-ko | 314 | 1,129 | 197,736 | 62,447 | 20,431 | 20,476 | 94,382 | | ja-th | 215 | 1,049 | 29,163 | 10,823 | 3,279 | 3,263 | 11,798 | | **合计** | **1,584** | **6,865** | **936,597** | **304,504** | **100,805** | **99,378** | **431,910** | ## 文件说明 本数据集以 Parquet 格式发布,包含以下文件: | 文件 | 大小 | 说明 | |------|------|------| | `ner_translations.parquet` | ~16 MB | 主数据集:全部三个语言对的 NER 翻译对,韩文/泰文已应用振假名多译修正(仅保留意译) | | `ner_translations_no_ruby_fix.parquet` | ~16 MB | 未修正版本:与主数据集相同,但保留了韩文/泰文中振假名标注产生的全部译法(含振假名音译) | | `ruby_fixes.parquet` | ~70 KB | 振假名多译修正详情:记录了所有被识别为振假名多译的条目及其意译/振假名音译拆分(ja-ko + ja-th,共 2,248 条) | ## 数据格式 ### Parquet 表结构 ```python # 使用 HuggingFace Datasets from datasets import load_dataset ds = load_dataset("parquet", data_files="ner_translations.parquet") # 使用 pandas import pandas as pd df = pd.read_parquet("ner_translations.parquet") # 按语言对筛选 df_zh = df[df["lang_pair"] == "ja-zh"] # 按实体类型筛选 df_per = df[df["type"] == "PER"] # 查看某个系列覆盖了哪些卷 series_vols = df[df["series"] == "ソードアート・オンライン"].iloc[0]["covered"] ``` | 列名 | 类型 | 说明 | |------|------|------| | `lang_pair` | string | 语言对(ja-zh / ja-ko / ja-th) | | `series` | string | 作品系列名(日文原名) | | `src` | string | 日文原文实体 | | `tgt` | list\<string\> | 对应的译文实体列表(可能有多个译法) | | `type` | string | 实体类型(PER / LOC / ORG / TERM) | | `covered` | list\<string\> | 该系列中被处理的卷 | ### 实体类型 | 类型 | 全称 | 说明 | 示例 | |------|------|------|------| | `PER` | Person | 人物名 | 草薙護堂、エリオ | | `LOC` | Location | 地名/场所 | 東京、冥界 | | `ORG` | Organization | 组织/团体 | 魔術協会、騎士団 | | `TERM` | Term | 专有名词/术语 | 魔弾、固有結界 | ### ruby_fixes.parquet 表结构 | 列名 | 类型 | 说明 | |------|------|------| | `lang_pair` | string | 语言对(ja-ko / ja-th) | | `series` | string | 作品系列名(日文原名) | | `src` | string | 日文原文实体 | | `type` | string | 实体类型(PER / LOC / ORG / TERM) | | `native_tgt` | string | 意译(被保留的译法) | | `loan_tgt` | list\<string\> | 音译列表(被移除的译法) | ### 关于多译文 部分条目的 `tgt` 字段包含多个译文,这通常由以下原因导致: - **同一实体的不同翻译策略**:译者在不同卷/章节中采用了不同的翻译方式 - **振假名标注导致的多译**(主要出现在韩文和泰文中):日文轻小说常在汉字词上方用振假名标注英文/片假名读音(如在「魔弾」上标注「マジック・ミサイル」),韩文/泰文译者可能同时翻译了汉字部分(意译)和振假名标注部分(音译),产生两种译法 主数据集(`ner_translations.parquet`)中已使用 LLM 自动识别并修正了这类振假名多译,仅保留意译部分。如需保留原始的全部译法(含振假名音译),请使用 `ner_translations_no_ruby_fix.parquet`。修正详情见 `ruby_fixes.parquet`。 ## 提取方法 本数据集通过以下流程自动提取: 1. 将日文原文与对应语言的官方翻译对齐为平行句对 2. 使用 LLM(Kimi K2.5)对平行句对进行命名实体识别,同时提取原文实体和译文实体 3. 对提取结果进行去括号、去重、清洗等后处理 ## 许可说明 本数据集中的NER翻译对是从官方翻译文本中自动提取的实体名称映射,仅包含人名、地名、组织名、术语等短语级别的翻译对照信息,不包含任何原文的句子或段落内容。本数据集仅供学术研究使用。
提供机构:
CjangCjengh
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作