davanstrien/bill_summary_us_chunks-similarity-yi

Name: davanstrien/bill_summary_us_chunks-similarity-yi
Creator: davanstrien
Published: 2024-06-19 12:21:08
License: 暂无描述

Hugging Face2024-06-19 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/davanstrien/bill_summary_us_chunks-similarity-yi

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含两个配置：default和raw。default配置包含三个特征：anchor（锚点）、positive（正例）、negative（负例），数据分割为train，包含1000个样本。raw配置包含四个特征：id（标识符）、section（部分）、prompt（提示）、generations（生成内容），数据分割同样为train，包含1000个样本。数据集主要用于句子转换器和合成数据相关的任务。

The dataset contains two configurations: default and raw. The default configuration includes three features: anchor, positive, and negative, with a train split containing 1000 examples. The raw configuration includes four features: id, section, prompt, and generations, with a train split also containing 1000 examples. The dataset is primarily used for tasks related to sentence-transformers and synthetic data.

提供机构：

davanstrien

原始信息汇总

数据集概述

配置信息

默认配置 (`default`)

特征:
- anchor: 字符串类型
- positive: 字符串类型
- negative: 字符串类型
分割:
- train:
  - 字节数: 647573
  - 样本数: 1000
下载大小: 352669 字节
数据集大小: 647573 字节

原始配置 (`raw`)

特征:
- id: 字符串类型
- section: 字符串类型
- prompt: 字符串类型
- generations: 字符串类型
分割:
- train:
  - 字节数: 2528731
  - 样本数: 1000
下载大小: 805553 字节
数据集大小: 2528731 字节

数据文件路径

默认配置 (default):
- train: data/train-*
原始配置 (raw):
- train: raw/train-*