joaosanches/subtitles_test_set
收藏Hugging Face2023-09-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/joaosanches/subtitles_test_set
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: string
- name: meta
struct:
- name: year
dtype: uint32
- name: imdbId
dtype: uint32
- name: subtitleId
struct:
- name: pt
dtype: uint32
- name: pt_br
dtype: uint32
- name: sentenceIds
struct:
- name: pt
sequence: uint32
- name: pt_br
sequence: uint32
- name: inputs
dtype: string
- name: targets
dtype: string
splits:
- name: train
num_bytes: 3722834.818439022
num_examples: 31746
download_size: 2921991
dataset_size: 3722834.818439022
---
# Dataset Card for "subtitles_test_set"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
### 数据集信息
#### 特征项
1. **id**:数据类型为字符串(string)
2. **meta**:结构体字段,包含以下子项:
- **year**:年份,数据类型为无符号32位整数(uint32)
- **imdbId**:IMDb编号,数据类型为无符号32位整数(uint32)
- **subtitleId**:字幕ID结构体,包含:
- **pt**:葡萄牙语字幕编号,数据类型为无符号32位整数(uint32)
- **pt_br**:巴西葡萄牙语字幕编号,数据类型为无符号32位整数(uint32)
- **sentenceIds**:句子ID结构体,包含:
- **pt**:葡萄牙语句子ID序列,元素类型为无符号32位整数(uint32)
- **pt_br**:巴西葡萄牙语句子ID序列,元素类型为无符号32位整数(uint32)
3. **inputs**:输入文本,数据类型为字符串
4. **targets**:目标文本,数据类型为字符串
#### 数据集拆分
- 训练集(train):字节大小为3722834.818439022,样本总数为31746
#### 统计参数
下载大小:2921991
数据集总大小:3722834.818439022
---
# 「subtitles_test_set」数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
joaosanches
原始信息汇总
数据集概述
数据集信息
特征
- id: 数据类型为字符串。
- meta: 结构化数据,包含以下字段:
- year: 数据类型为无符号32位整数。
- imdbId: 数据类型为无符号32位整数。
- subtitleId: 结构化数据,包含以下字段:
- pt: 数据类型为无符号32位整数。
- pt_br: 数据类型为无符号32位整数。
- sentenceIds: 结构化数据,包含以下字段:
- pt: 数据类型为无符号32位整数序列。
- pt_br: 数据类型为无符号32位整数序列。
- inputs: 数据类型为字符串。
- targets: 数据类型为字符串。
数据分割
- train: 包含31746个样本,总字节数为3722834.818439022。
数据集大小
- 下载大小: 2921991字节。
- 数据集大小: 3722834.818439022字节。



