person_bio
收藏Hugging Face2025-08-12 更新2025-08-13 收录
下载链接:
https://huggingface.co/datasets/rvashurin/person_bio
下载链接
链接失效反馈官方服务:
资源简介:
这是一个为LM-Polygraph基准测试而创建的预处理person_bio数据集,包含阿拉伯语、英语、俄语和中文四种语言配置。每个配置都包含输入、输出和去除空格的输入三个字段,并有一个测试集用于基准测试。
创建时间:
2025-08-12
原始信息汇总
数据集概述:person_bio
数据集详情
- 维护者:LM-Polygraph (https://huggingface.co/LM-Polygraph)
- 许可证:MIT (https://github.com/IINemo/lm-polygraph/blob/main/LICENSE.md)
- 来源仓库:https://github.com/IINemo/lm-polygraph
数据集用途
- 直接用途:用于LM-Polygraph的基准测试
- 非适用用途:不应用于进一步的数据集预处理
数据集结构
- 配置语言:阿拉伯语(ar)、英语(en)、俄语(ru)、中文(zh)
- 特征字段:
- input (string):处理后的LM-Polygraph输入
- output (string):处理后的LM-Polygraph输出
- stripped_input (string):处理后的输入文本
- 数据分割:
- 所有配置均仅包含test分割
各语言配置详情
| 语言 | 测试集样本数 | 测试集大小(bytes) | 下载大小(bytes) | 数据集总大小(bytes) |
|---|---|---|---|---|
| ar | 100 | 323,462 | 31,252 | 323,462 |
| en | 100 | 8,222 | 5,279 | 8,222 |
| ru | 145 | 24,366 | 9,181 | 24,366 |
| zh | 100 | 6,456 | 4,153 | 6,456 |
数据集创建
- 创建目的:将数据集创建代码与基准测试代码分离
- 源数据集:https://huggingface.co/datasets/person_bio
- 处理脚本:https://github.com/IINemo/lm-polygraph/blob/main/dataset_builders/build_dataset.py
偏差与限制
- 继承自源数据集的所有偏差、风险和限制
- 建议:用户应充分了解数据集的潜在风险、偏差和限制
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,多语言基准测试数据集的构建具有重要意义。person_bio数据集通过系统化的流程构建而成,其原始数据来源于公开可用的个人传记文本资源。构建过程中采用了LM-Polygraph项目提供的专用脚本进行处理,确保数据格式的统一性和可用性。数据集包含阿拉伯语、英语、俄语和中文四种语言版本,每种语言都经过独立处理,保留了原始文本的结构特征。
特点
该数据集展现了显著的多语言特性,涵盖阿拉伯语、英语、俄语和中文四种语言变体,为跨语言模型评估提供了便利。每个语言版本都包含标准化的输入输出字段,其中输入字段经过特殊处理以适应语言模型测试需求。数据集规模适中,各语言版本样本量均衡,英语和中文各含100个样本,俄语样本量略多达到145个。这种设计既保证了测试的代表性,又避免了数据冗余。
使用方法
作为LM-Polygraph项目的基准测试数据集,其主要用途在于评估语言模型的生成性能。使用时可直接加载特定语言版本的测试集,通过输入输出字段的对应关系进行模型测试。数据集采用标准分割方式,仅包含测试集部分,确保了评估的客观性。值得注意的是,该数据集不建议用于二次预处理或训练目的,其设计初衷是作为标准化的评估工具使用。
背景与挑战
背景概述
person_bio数据集由LM-Polygraph团队构建,旨在为语言模型的多语言基准测试提供标准化评估工具。该数据集源自原始person_bio语料库,经过预处理后形成包含阿拉伯语、英语、俄语和中文的多语言测试集,每个语言配置均包含输入文本、输出文本及去格式化的纯净文本字段。作为LM-Polygraph基准测试框架的核心组成部分,该数据集通过结构化存储模型输入输出对,为检测语言模型生成内容的真实性和一致性提供了重要实验基础。其多语言特性尤其有助于探究不同语言文化背景下模型行为的差异性。
当前挑战
该数据集面临双重技术挑战:在领域问题层面,需解决多语言生成评估中语义一致性判定的难题,特别是处理阿拉伯语右向书写和中文无空格分词等语言特性时,传统评估指标易出现偏差;在构建过程中,原始数据的文化敏感性处理构成主要障碍,例如人物传记中可能存在的性别、种族等潜在偏见需要谨慎过滤。此外,保持各语言版本间字段结构的严格对齐,同时兼顾不同语种的特殊文本处理需求,对数据清洗流程的设计提出了较高要求。
常用场景
经典使用场景
在自然语言处理领域,person_bio数据集作为LM-Polygraph基准测试的核心资源,其经典应用场景聚焦于语言模型生成文本的多样性与连贯性评估。该数据集通过精心设计的输入输出对,为研究者提供了标准化的测试平台,尤其在多语言环境下(如阿拉伯语、英语、俄语和中文)的模型表现对比研究中展现出独特价值。
解决学术问题
该数据集有效解决了语言模型生成文本的可控性与偏差分析等关键学术问题。通过结构化的人物传记文本数据,研究者能够量化评估模型在性别、文化背景等敏感维度上的潜在偏见,同时为生成文本的事实一致性检测提供了基准框架,推动了可信AI领域的方法论创新。
衍生相关工作
围绕该数据集衍生的经典工作包括LM-Polygraph框架下的多模态检测算法,以及基于对比学习的生成文本质量评估模型。后续研究进一步扩展了其在认知偏差量化、跨语言迁移学习等方向的应用,形成了系列具有影响力的学术成果。
以上内容由遇见数据集搜集并总结生成



