pei39/Taxi1500-RawData-test
收藏Hugging Face2024-06-03 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/pei39/Taxi1500-RawData-test
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个配置,每个配置对应一种特定的语言或脚本,数据文件按分割(如taxi1500)和路径组织。
This dataset includes multiple configurations, each corresponding to a specific language or script, with data files organized by splits (e.g., taxi1500) and paths.
提供机构:
pei39
原始信息汇总
数据集概述
数据集配置
- config_name: 数据集配置名称,包含多种语言代码,如
aai_Latn,aak_Latn等。 - data_files: 数据文件信息。
- split: 数据集分割类型,统一为
taxi1500。 - path: 数据文件路径,格式为
{config_name}/taxi1500/*.arrow。
- split: 数据集分割类型,统一为
数据集特点
- 数据集包含多个配置,每个配置对应不同的语言或地区。
- 所有数据文件的分割类型均为
taxi1500,表明数据集可能与出租车相关的数据有关。 - 数据文件格式统一为
.arrow,这是一种高效的列式存储格式,适合大数据处理。
数据集结构
- 数据集结构清晰,每个配置下的数据文件路径和格式保持一致,便于管理和访问。
- 数据集的组织方式使得用户可以根据需要选择特定的语言或地区数据进行分析。



