five

SINAI/ALIA-administrative-triplets

收藏
Hugging Face2025-12-17 更新2026-01-03 收录
下载链接:
https://hf-mirror.com/datasets/SINAI/ALIA-administrative-triplets
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含表格实例,旨在使用基于段落的查询-答案数据训练和评估检索导向模型(如密集检索器/嵌入编码器),这些数据是通过集成在ALIA编码器管道中的Qwen3风格提示工作流生成的。它保留了原始文档和块的来源,同时提供了诸如问题“类型”和“难度”(从“高中”到“博士”级别)等控制。数据集专注于特定领域的法律行政文本,并与跟踪文档/块来源的文档分割工作流程兼容。

This dataset contains tabular instances designed to train and evaluate retrieval-oriented models (e.g., dense retrievers / embedding encoders) using passage-grounded query–answer data produced with a Qwen3-style prompting workflow integrated in the ALIA encoders pipeline. It preserves provenance to the original document and chunk while exposing controls such as question `type` and `difficulty` (ranging from `high_school` to `phd` level). The dataset is focused on domain-specific legal-administrative text and compatible with document segmentation workflows that track document/chunk provenance.
提供机构:
SINAI
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作