five

Aulvem/pet-airlines

收藏
Hugging Face2026-04-28 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Aulvem/pet-airlines
下载链接
链接失效反馈
官方服务:
资源简介:
一个结构化、机器可读的数据集,包含从日本出发的主要国际航空公司的宠物旅行政策。该数据集旨在为AI代理和下游应用提供直接可用的信息,无需进行网页抓取。内容包括客舱/行李/货运政策、短头犬品种限制、重量和携带箱尺寸限制、所需文件、费用和预订程序等,所有数据均采用统一模式,以英语为主,日语为本地化视图。每条记录都引用了一个官方来源URL,并包含明确的最后检查日期和置信度评级。未知值标记为unknown/null/[],而非猜测值。

--- 语言: - 英语 - 日语 许可证:CC-BY 4.0 标签: - 旅行 - 宠物 - 航空 - 法规 - 结构化数据 - 日本 规模类别: - 记录数少于1000(n<1K) 任务类别: - 文本分类 - 问答 美观名称:日本出境宠物航空旅行数据集 配置项: - 配置名称:默认 数据文件: - 拆分集:训练集(train) 路径:pet_airlines_v0.1.csv --- # 日本出境宠物航空旅行数据集 本数据集为面向主要国际航空公司的宠物旅行政策结构化、机器可读数据集,聚焦从日本出发的航班。本数据集无需爬虫即可直接供AI智能体(AI Agent)及下游应用使用。 ## 概述 网络上充斥着面向人类读者的宠物旅行指南,但几乎无一可直接供AI智能体或类型化应用使用,除非针对每家航空公司单独编写爬虫脚本。`pet_airlines` 填补了这一结构化空白:其统一schema(模式)涵盖客舱/托运行李/货运政策、短头犬种(brachycephalic-breed)限制、重量与航空箱尺寸限制、必备文件、费用及预订流程,以英语为基准版本,日语为本地化视图。 每条记录均标注单一官方来源URL,并包含明确的`last_checked_at`(最后核查日期)字段与`confidence`(置信度)评级。未知值将直接标记为`unknown`/`null`/`[]`,而非主观猜测填充。 ## v0.1版本内容 | 指标 | 数值 | |---|---| | 记录数 | 10 | | 地理聚焦范围 | 日本出境航线 | | 语言覆盖 | 英语(基准版)+ 日语(本地化版) | | 高置信度记录数 | 6 | | 中置信度记录数 | 4 | | 最后核查日期 | 2026-04-27 | | Schema版本 | 0.1 | | 许可证 | CC-BY 4.0 | 覆盖的10家航空公司: 1. 日本航空(Japan Airlines, JAL) 2. 全日空(All Nippon Airways, ANA) 3. ZIPAIR 4. 大韩航空(Korean Air) 5. 韩亚航空(Asiana Airlines) 6. 新加坡航空(Singapore Airlines) 7. 国泰航空(Cathay Pacific) 8. 长荣航空(EVA Air) 9. 汉莎航空(Lufthansa) 10. 联合航空(United Airlines) ## 使用方式 ### Python(使用`datasets`库) python from datasets import load_dataset ds = load_dataset("Aulvem/pet-airlines") print(ds["train"][0]) # {'id': 'pet_airline_001', 'airline_name_en': 'Japan Airlines', ...} ### 直接获取JSON文件(保留嵌套结构) CSV为默认拆分文件,但JSON文件保留了原始嵌套对象(如`weight_limit.scope`、`brachycephalic_restriction.applies`等),若下游代码需要类型化对象而非扁平化列,推荐使用JSON文件。 python import json, urllib.request url = "https://huggingface.co/datasets/Aulvem/pet-airlines/resolve/main/pet_airlines_v0.1.json" data = json.load(urllib.request.urlopen(url)) for r in data["records"]: print(r["id"], r["airline_name_en"], r["confidence"]) ### Schema验证 python import json, urllib.request, jsonschema # pip install jsonschema base = "https://huggingface.co/datasets/Aulvem/pet-airlines/resolve/main" schema = json.load(urllib.request.urlopen(f"{base}/schema.json")) dataset = json.load(urllib.request.urlopen(f"{base}/pet_airlines_v0.1.json")) jsonschema.validate(dataset, schema) # 验证失败时抛出异常 ## 数据模式(Schema) 完整的JSON Schema(Draft 2020-12)已随数据集一同发布为`schema.json`。每条记录的顶级字段如下: | 字段 | 类型 | 说明 | |---|---|---| | `id` | 字符串 | 稳定标识符,例如`pet_airline_001` | | `airline_name_en` / `airline_name_ja` | 字符串 | 英文基准版 + 日语本地化版 | | `official_url` | 字符串(URI) | 单一来源页面;每条记录必填 | | `source_language` | 枚举类型 | `en` / `ja` / `zh` / `ko` / `de` / `multi` | | `pet_type` | 数组 | 可选值包括:`dog`、`cat`、`bird`、`rabbit`、`small_mammal`、`service_animal`、`emotional_support_animal`、`other` | | `cabin_allowed` / `checked_baggage_allowed` / `cargo_allowed` | 枚举类型 | `yes`(允许)/ `no`(不允许)/ `conditional`(有条件)/ `unknown`(未知) | | `brachycephalic_restriction` | 对象 | 结构为`{ applies, details_en, details_ja }` | | `weight_limit` | 对象 | 结构为`{ value, unit (kg/lb), scope, notes_en, notes_ja }` | | `carrier_size_limit` | 对象 | 结构为`{ length_cm, width_cm, height_cm, sum_cm, notes_en, notes_ja }` | | `reservation_method_en/ja` | 字符串 | 自由文本格式 | | `required_documents_en/ja` | 字符串数组 | 每个元素代表一份必备文件 | | `fee_info_en/ja` | 字符串 | 原始货币单位将被完整保留 | | `notes_en/ja` | 字符串 | 季节性/航线特定豁免条款(使用ISO日期范围标注) | | `last_checked_at` | 字符串(ISO日期格式) | 数据核查日期 | | `confidence` | 枚举类型 | `high`(高)/ `medium`(中)/ `low`(低)/ `unknown`(未知) | `pet_airlines_v0.1.csv`为该数据集的扁平化33列视图(嵌套对象通过前缀列名展开,数组以` | `连接)。两个文件均与GitHub仓库中的标准源文件保持字节级一致。 ## 重要提示 > **仅供参考。出行前务必以官方来源为准。** 宠物旅行政策频繁变动,且受航线、机型、季节等因素影响,航空公司公开政策与值机柜台实际执行规则可能存在差异。请在预订前直接向航空公司、机场及航线途经国的动物检疫当局核实信息。本数据集维护方不对基于本数据集产生的旅行结果承担责任;完整免责声明请参阅源仓库的`TERMS.md`文件。 ## 更新频率 本数据集由源仓库的GitHub Actions工作流每周自动重新抓取并提取(每周一UTC 03:00)。每次运行都会生成与上一快照的结构化差异拉取请求。更新需经人工审核后方可合并至标准数据集,合并后的结果将同步至Hugging Face平台。 您可通过标准的HF数据集版本控制功能锁定特定版本,例如`load_dataset("Aulvem/pet-airlines", revision="<commit-sha>")`。 ## 路线图 | 版本 | 规划方向 | |---|---| | v0.1(当前版本) | 10家航空公司、日本出境航线、支持JSON与CSV格式 | | v0.2 | Schema规范化(统一单位与货币)、覆盖25-30家航空公司 | | v0.3 | 国家层面的检疫与进口规则 | | v1.0 | 提供支持航线/品种/季节查询语义的公开REST API | | v2.0 | 适配AI智能体集成的MCP服务器(支持Claude、ChatGPT、Cursor、Claude Code) | Schema变更均为追加式,锁定v0.1版本的使用者不会受后续版本更新影响。 ## 源仓库 标准源文件、每周提取流水线、Schema定义及贡献流程均托管于GitHub: **https://github.com/aulvem/pet_airlines** 请在此处提交问题、拉取请求及信息不准确反馈。本Hugging Face数据集为下游镜像仓库。 ## 引用方式 若您在研究、产品或下游工具中使用本数据集,请按以下方式引用: > pet_airlines 贡献者 (2026). *pet_airlines: AI可读宠物航空旅行数据集* (v0.1). 可从 https://huggingface.co/datasets/Aulvem/pet-airlines(镜像站)及 https://github.com/aulvem/pet_airlines(标准源站)获取,采用CC-BY 4.0许可证发布。 CC-BY 4.0要求注明来源;上述引用格式,或任何能明确标注数据集名称、版本及许可证的等效形式,均可满足要求。 ## 许可证 本数据集采用[知识共享署名4.0国际许可协议(CC-BY 4.0)](https://creativecommons.org/licenses/by/4.0/)发布。您可自由共享、改编本数据集,包括商业用途,但需提供适当的署名。 航空公司政策文本的版权仍归各航空公司所有。本数据集依据事实提取原则,仅提取事实性信息(如数值限制、文件清单、是/否标识),并未重新分发航空公司的原始叙述文本。若您重新发布通过源URL获取的航空公司原创文本,请遵守各航空公司的自身条款。 ## 联系方式 如有疑问、bug报告或信息修正需求,请通过GitHub提交Issue: **https://github.com/aulvem/pet_airlines/issues** 报告信息不准确时,请注明官方来源页面。
提供机构:
Aulvem
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作