the-french-artist/hatvp_declarations_text_index_embeds
收藏Hugging Face2024-05-02 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/the-french-artist/hatvp_declarations_text_index_embeds
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自法国公共生活透明度高级管理局(HATVP)的声明,这些声明被转换为适合用于检索增强生成(RAG)任务的结构化格式。数据集的特征包括XML文件的SHA1哈希、原始XML声明、转换为JSON格式的声明、声明人的姓名和当前职位,以及使用OpenAI的`text-embedding-3-large`模型生成的嵌入向量。数据集只有一个配置(`default`),包含一个训练集,共有10,944个示例,占用约438.51 MB。数据集的使用示例展示了如何使用RAG模型回答关于个人的问题,特别是关于公众人物的事实性问题。
该数据集包含来自法国公共生活透明度高级管理局(HATVP)的声明,这些声明被转换为适合用于检索增强生成(RAG)任务的结构化格式。数据集的特征包括XML文件的SHA1哈希、原始XML声明、转换为JSON格式的声明、声明人的姓名和当前职位,以及使用OpenAI的`text-embedding-3-large`模型生成的嵌入向量。数据集只有一个配置(`default`),包含一个训练集,共有10,944个示例,占用约438.51 MB。数据集的使用示例展示了如何使用RAG模型回答关于个人的问题,特别是关于公众人物的事实性问题。
提供机构:
the-french-artist
原始信息汇总
HATVP Declaration Dataset 概述
数据集信息
- 许可证:
apache-2.0 - 配置: 单个配置 (
default) - 下载大小: 约205 MB
- 数据集大小: 约439 MB
特征
xml_sha1:declaration_xml的SHA1哈希值,用于版本比较。计算日期为24-04-2024。declaration_xml: HATVP提供的原始XML声明。declaration_json: 使用XMLTODICTPython库转换的JSON格式,字符数减少25%。text_index: 申报人的姓名、姓氏及当前职务。text_index_embedding: 使用OpenAI的text-embedding-3-large模型生成的嵌入向量,优化用于法语文本。
数据分割
- 训练集: 10,944个样本,约占438.51 MB。
默认配置
- 数据文件:
train-*: 包含训练分割的数据文件。



