iix/Parquet_FIles

Hugging Face2023-10-27 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/iix/Parquet_FIles

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: mit task_categories: - text-classification - text-generation language: - en tags: - code pretty_name: '*' size_categories: - 1M<n<10M --- # Parquet_Files # Cross Language (CL) Datasets Four datasets of language pair translations originating from CORDIS Project News (https://elrc-share.eu/) ``` Structured as follows: | Field | Description | | --------------- | ----------------------------------------------------------------------- | | de/es/fr/it | Non-English transcripts of sentences | | en | English translations of sentences | 120k rows (approx. per parquet file) ``` # Characters.parquet One large dataset of synthetic characters, information regarding them and their outputs. Created by combining other synthetic character datasets which can be found at: https://shorturl.at/gjIJ5, https://shorturl.at/DFQT6 & https://shorturl.at/tHX68. ``` Structured as follows: | Field | Description | | -------------- | --------------------------------------------------------------- | | name | Character name | | categories | Categories or genres associated with the character (array) | | personalities | Personality traits and characteristics of the character (array) | | description | Description of the character | | conversation | Conversational interactions involving the character (array) | 17.6k rows ``` # Flores7Lang.parquet Seven languages merged from the Flores-200 Dataset (https://github.com/facebookresearch/flores/blob/main/flores200/README.md) ``` Structured as follows: | Field | Description | | --------------- | ----------------------------------------------------- | | deu | Sentence translated into German | | eng | Sentence translated into English | | epo | Sentence translated into Esperanto | | fra | Sentence translated into French | | ita | Sentence translated into Italian | | spa | Sentence translated into Spanish | | tur | Sentence translated into Turkish | 2.1k rows ``` # Fraud_detection.parquet A synthetic financial dataset intended for Fraud detection tasks (https://www.kaggle.com/datasets/ealaxi/paysim1). ``` Structured as follows: | Field | Description | | --------------- | ------------------------------------------------------------- | | Step | Maps a unit of time in the real world (1 step = 1 hour) | | Type | CASH-IN, CASH-OUT, DEBIT, PAYMENT, or TRANSFER | | Amount | Amount of the transaction in local currency | | nameOrig | Customer who initiated the transaction | | oldbalanceOrg | Initial balance before the transaction | | newbalanceOrig | Customer's balance after the transaction | | nameDest | Recipient ID of the transaction | | oldbalanceDest | Initial recipient balance before the transaction | | newbalanceDest | Recipient's balance after the transaction | | isFraud | Identifies a fraudulent transaction (1) or non-fraudulent (0) | 2.27m rows ```

许可证：MIT协议任务类别： - 文本分类 - 文本生成语言： - 英语标签： - 代码美观名称：* 数据量区间：100万<n<1000万 # Parquet文件集 # 跨语言（Cross Language, CL）数据集四个源自CORDIS项目新闻（来源：https://elrc-share.eu/）的语言对翻译数据集。结构如下： | 字段名 | 描述 | | --------------- | -------------------------------------------------------------------- | | de/es/fr/it | 对应德语、西班牙语、法语、意大利语的非英语语句转录文本 | | en | 对应上述语句的英语翻译文本 | 每个Parquet文件约含12万条数据 # Characters.parquet数据集该数据集为大型合成角色数据集，包含角色相关信息及其生成内容，由多个公开的合成角色数据集整合而成，原始数据集链接如下：https://shorturl.at/gjIJ5、https://shorturl.at/DFQT6 与 https://shorturl.at/tHX68。结构如下： | 字段名 | 描述 | | --------------- | -------------------------------------------------------------------- | | name | 角色名称 | | categories | 与角色关联的类别或题材（数组格式） | | personalities | 角色的人格特质与特征（数组格式） | | description | 角色描述 | | conversation | 包含该角色的对话交互内容（数组格式） | 总计17.6万条数据 # Flores7Lang.parquet数据集该数据集从Flores-200数据集（Flores-200 Dataset，来源：https://github.com/facebookresearch/flores/blob/main/flores200/README.md）中整合了7种语言的语料。结构如下： | 字段名 | 描述 | | ------- | ------------------------------------------ | | deu | 德语译句 | | eng | 英语译句 | | epo | 世界语译句 | | fra | 法语译句 | | ita | 意大利语译句 | | spa | 西班牙语译句 | | tur | 土耳其语译句 | 总计2.1千条数据 # Fraud_detection.parquet数据集该数据集为合成金融数据集，用于欺诈检测任务（来源：https://www.kaggle.com/datasets/ealaxi/paysim1）。结构如下： | 字段名 | 描述 | | --------------- | -------------------------------------------------------------------- | | Step | 映射现实世界的时间单位（1步=1小时） | | Type | 交易类型，包括CASH-IN（现金存入）、CASH-OUT（现金取出）、DEBIT（借记）、PAYMENT（支付）或TRANSFER（转账） | | Amount | 以当地货币计价的交易金额 | | nameOrig | 发起交易的客户ID | | oldbalanceOrg | 交易前发起方账户的初始余额 | | newbalanceOrig | 交易后发起方账户的余额 | | nameDest | 交易接收方ID | | oldbalanceDest | 交易前接收方账户的初始余额 | | newbalanceDest | 交易后接收方账户的余额 | | isFraud | 交易欺诈标记，1表示欺诈交易，0表示非欺诈交易 | 总计227万条数据

提供机构：

iix

原始信息汇总

数据集概述

Parquet_Files

Cross Language (CL) Datasets

来源: CORDIS Project News (https://elrc-share.eu/)
描述: 包含四种语言对翻译的数据集。
结构:

字段描述

de/es/fr/it 非英语句子

en 英语翻译句子
大小: 约120,000行/文件

Characters.parquet

描述: 包含合成角色及其相关信息的大型数据集。

结构:

字段	描述
name	角色名称
categories	角色关联的类别或类型（数组）
personalities	角色的性格特征（数组）
description	角色描述
conversation	角色参与的对话（数组）

大小: 17,600行

Flores7Lang.parquet

来源: Flores-200 Dataset (https://github.com/facebookresearch/flores/blob/main/flores200/README.md)
描述: 包含七种语言的数据集。

结构:

字段	描述
deu	德语翻译句子
eng	英语翻译句子
epo	世界语翻译句子
fra	法语翻译句子
ita	意大利语翻译句子
spa	西班牙语翻译句子
tur	土耳其语翻译句子

大小: 2,100行

Fraud_detection.parquet

来源: Kaggle (https://www.kaggle.com/datasets/ealaxi/paysim1)
描述: 用于欺诈检测任务的合成金融数据集。

结构:

字段	描述
Step	现实世界中的时间单位（1步=1小时）
Type	交易类型（CASH-IN, CASH-OUT, DEBIT, PAYMENT, TRANSFER）
Amount	交易金额（本地货币）
nameOrig	发起交易的客户
oldbalanceOrg	交易前的初始余额
newbalanceOrig	交易后的客户余额
nameDest	交易接收者ID
oldbalanceDest	交易前的接收者初始余额
newbalanceDest	交易后的接收者余额
isFraud	标识欺诈交易（1）或非欺诈交易（0）

大小: 2,270,000行

搜集汇总

数据集介绍

构建方式

在跨语言数据科学领域，iix/Parquet_FIles数据集通过整合多源异构数据构建而成。其跨语言子集源自CORDIS项目新闻的平行语料，涵盖德语、西班牙语、法语和意大利语与英语的互译对，每个文件约含12万条语句。角色数据子集则融合了三个外部合成角色数据集，系统化地提取了名称、类别、性格特征及对话记录等结构化属性。Flores7Lang子集精选自Flores-200多语言评估基准，覆盖七种语言的平行句子。欺诈检测子集基于Kaggle公开的金融仿真数据，模拟了交易时间、类型、金额及账户状态等多维度特征。

特点

该数据集展现出显著的多元异构特性，其内容跨越自然语言处理与金融计算两大领域。在语言学维度，数据集同时包含真实跨语言平行语料与合成角色对话数据，支持机器翻译、文本分类及对话生成等多重任务。其多语言覆盖不仅涉及主流欧洲语言，还包含世界语等特殊语种，为低资源语言研究提供素材。在计算金融维度，数据集通过精细标注的欺诈交易标签与完整的资金流追踪字段，构建了时序特征与类别特征交织的监督学习场景。各子集均采用Parquet列式存储格式，在保证数据压缩效率的同时，支持灵活的结构化查询。

使用方法

研究者可依据任务需求定向调用特定子集文件，利用Parquet格式的高效IO特性进行数据加载。对于跨语言研究，Flores7Lang子集可作为多语言模型评估基准，而CORDIS翻译对适用于神经机器翻译训练。角色数据子集中的分类标签与对话数组，能够支撑角色属性分析与对话系统构建。欺诈检测子集则需结合时序分析与特征工程，其Step字段可衍生时间序列模型，Type与Amount等字段适合构建交易行为画像。在使用合成数据时，建议通过交叉验证评估模型泛化能力，并注意区分仿真数据与真实场景的分布差异。

背景与挑战

背景概述

iix/Parquet_Files数据集是一个多用途的文本与结构化数据集合，由多个独立子数据集构成，涵盖了跨语言翻译、合成角色生成及金融欺诈检测等多个前沿领域。该数据集整合了来自CORDIS项目新闻的多语言平行语料、基于公开资源合成的角色信息数据，以及源自Kaggle平台的模拟金融交易记录，旨在为自然语言处理与机器学习研究提供多样化的基准资源。其创建时间可追溯至各原始数据集的发布时间，主要贡献者包括欧盟语言资源协作平台及Facebook Research等机构，核心研究问题聚焦于提升机器翻译的跨语言理解能力、增强合成数据的真实性与多样性，以及优化金融欺诈检测模型的泛化性能，对推动多模态人工智能应用具有显著影响力。

当前挑战

该数据集面临的挑战主要体现在两个方面：在领域问题层面，跨语言翻译子集需应对低资源语言对（如世界语）的语义对齐难题，合成角色数据则需克服生成文本的连贯性与角色一致性保持问题，而金融欺诈检测任务则因数据高度不平衡与模拟环境局限性，导致模型在真实场景中的泛化能力受限。在构建过程中，挑战包括多源异构数据的格式统一与质量校验，例如整合不同结构的Parquet文件时需确保字段映射的准确性；同时，合成数据的生成依赖于外部资源，可能存在版权与伦理边界模糊的风险，且金融数据的模拟性质可能无法完全复现现实交易的复杂模式，这些因素均对数据集的可靠性与应用广度构成制约。

常用场景

经典使用场景

在自然语言处理领域，多语言翻译与文本生成任务常面临数据稀缺的挑战。iix/Parquet_Files数据集通过整合跨语言平行语料、合成角色对话及金融欺诈检测数据，为机器翻译、对话系统与异常检测模型提供了丰富的训练资源。其经典使用场景包括利用Flores7Lang子集进行多语言神经机器翻译模型的微调与评估，借助Characters.parquet构建个性化角色对话生成系统，以及通过Fraud_detection.parquet训练金融交易异常分类器。这些结构化数据支持端到端的模型开发流程，显著提升了跨领域任务的实验效率。

实际应用

在实际应用层面，该数据集支撑了多语言服务与智能系统的落地。基于Flores7Lang训练的翻译引擎可集成于跨国企业文档处理平台，提升多语言内容本地化效率；Characters.parquet衍生的角色对话模型能够赋能虚拟助手与游戏NPC，实现更具人格化的交互体验。Fraud_detection.parquet则广泛应用于银行业务监控系统，通过实时交易流分析识别可疑模式，辅助风险决策。这些应用不仅优化了跨语言沟通与娱乐产业体验，也为金融安全提供了可扩展的技术解决方案。

衍生相关工作

围绕该数据集衍生的经典工作涵盖多模态学习与领域迁移方向。例如，研究者结合Characters.parquet的角色属性与对话序列，开发了基于注意力机制的角色一致性生成框架；利用Flores7Lang与Cross Language数据，提出了跨语言预训练模型的零样本迁移方法，显著提升了低资源语言的翻译鲁棒性。在金融科技领域，基于Fraud_detection.parquet的图神经网络与时序异常检测模型，已成为欺诈检测学术论文中常用的基准对比方案。这些工作进一步拓展了数据集的学术影响力，并催生了如多语言对话生成、不平衡数据分类等新兴研究方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集