BroDeadlines/TEST.edu_tdt_proposition_data
收藏Hugging Face2024-06-13 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/BroDeadlines/TEST.edu_tdt_proposition_data
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: content
dtype: string
- name: url
dtype: string
- name: doc_id
dtype: string
- name: shards
dtype: int64
- name: splits
sequence: string
- name: split
sequence: string
- name: propositions
sequence: string
- name: proposition_list
sequence: string
splits:
- name: propositon_medium_edu_tdt
num_bytes: 29192895
num_examples: 344
- name: INDEX.medium_index_TDT
num_bytes: 29192895
num_examples: 344
- name: INDEX.medium_index_TDT_clean
num_bytes: 29175683
num_examples: 344
- name: TEST.basic_index_TDT_clean
num_bytes: 1696260.6395348837
num_examples: 20
download_size: 20840037
dataset_size: 89257733.63953489
configs:
- config_name: default
data_files:
- split: propositon_medium_edu_tdt
path: data/propositon_medium_edu_tdt-*
- split: INDEX.medium_index_TDT
path: data/INDEX.medium_index_TDT-*
- split: INDEX.medium_index_TDT_clean
path: data/INDEX.medium_index_TDT_clean-*
- split: TEST.basic_index_TDT_clean
path: data/TEST.basic_index_TDT_clean-*
---
propositon_medium_edu_tdt
```json
{
"vector_index": "vec-propositon_medium_edu_tdt",
"text_index": "text-propositon_medium_edu_tdt",
"method": ["split", "proposition"],
"step": 50,
"chunk_size": 400,
"time(min)": "4.36",
"errors": [
"3369b8d5-1b47-11ef-a755-d38426455a06",
"ebe87ce2-13cc-11ef-b548-0242ac1c000c"
]
}
```
INDEX.medium_index_TDT_clean
```json
{
"vector_index": "vec-sentence-index.medium_index_tdt_clean"
"text_index": "text-sentence-index.medium_index_tdt_clean",
"method": ["fulltext", "clean", "proposition"],
"errors": ["ebe87ce2-13cc-11ef-b548-0242ac1c000c"]
}
```
提供机构:
BroDeadlines
原始信息汇总
数据集概述
数据集特征
- content:数据类型为字符串。
- url:数据类型为字符串。
- doc_id:数据类型为字符串。
- shards:数据类型为整数。
- splits:数据类型为字符串序列。
- split:数据类型为字符串序列。
- propositions:数据类型为字符串序列。
- proposition_list:数据类型为字符串序列。
数据集分割
- propositon_medium_edu_tdt:包含344个示例,总字节数为29192895。
- INDEX.medium_index_TDT:包含344个示例,总字节数为29192895。
数据集大小
- 下载大小:10049366字节。
- 数据集总大小:58385790字节。
配置信息
- config_name:default
- data_files:
- split:propositon_medium_edu_tdt,路径为
data/propositon_medium_edu_tdt-*。 - split:INDEX.medium_index_TDT,路径为
data/INDEX.medium_index_TDT-*。
- split:propositon_medium_edu_tdt,路径为



