five

the-french-artist/hatvp_declarations_text_index_embeds

收藏
Hugging Face2024-05-02 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/the-french-artist/hatvp_declarations_text_index_embeds
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自法国公共生活透明度高级管理局(HATVP)的声明,这些声明被转换为适合用于检索增强生成(RAG)任务的结构化格式。数据集的特征包括XML文件的SHA1哈希、原始XML声明、转换为JSON格式的声明、声明人的姓名和当前职位,以及使用OpenAI的`text-embedding-3-large`模型生成的嵌入向量。数据集只有一个配置(`default`),包含一个训练集,共有10,944个示例,占用约438.51 MB。数据集的使用示例展示了如何使用RAG模型回答关于个人的问题,特别是关于公众人物的事实性问题。

该数据集包含来自法国公共生活透明度高级管理局(HATVP)的声明,这些声明被转换为适合用于检索增强生成(RAG)任务的结构化格式。数据集的特征包括XML文件的SHA1哈希、原始XML声明、转换为JSON格式的声明、声明人的姓名和当前职位,以及使用OpenAI的`text-embedding-3-large`模型生成的嵌入向量。数据集只有一个配置(`default`),包含一个训练集,共有10,944个示例,占用约438.51 MB。数据集的使用示例展示了如何使用RAG模型回答关于个人的问题,特别是关于公众人物的事实性问题。
提供机构:
the-french-artist
原始信息汇总

HATVP Declaration Dataset 概述

数据集信息

  • 许可证: apache-2.0
  • 配置: 单个配置 (default)
  • 下载大小: 约205 MB
  • 数据集大小: 约439 MB

特征

  • xml_sha1: declaration_xml 的SHA1哈希值,用于版本比较。计算日期为24-04-2024。
  • declaration_xml: HATVP提供的原始XML声明。
  • declaration_json: 使用XMLTODICT Python库转换的JSON格式,字符数减少25%。
  • text_index: 申报人的姓名、姓氏及当前职务。
  • text_index_embedding: 使用OpenAI的text-embedding-3-large模型生成的嵌入向量,优化用于法语文本。

数据分割

  • 训练集: 10,944个样本,约占438.51 MB。

默认配置

  • 数据文件:
    • train-*: 包含训练分割的数据文件。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作