iix/Parquet_FIles
收藏Hugging Face2023-10-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/iix/Parquet_FIles
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
task_categories:
- text-classification
- text-generation
language:
- en
tags:
- code
pretty_name: '*'
size_categories:
- 1M<n<10M
---
# Parquet_Files
# Cross Language (CL) Datasets
Four datasets of language pair translations originating from CORDIS Project News (https://elrc-share.eu/)
```
Structured as follows:
| Field | Description |
| --------------- | ----------------------------------------------------------------------- |
| de/es/fr/it | Non-English transcripts of sentences |
| en | English translations of sentences |
120k rows (approx. per parquet file)
```
# Characters.parquet
One large dataset of synthetic characters, information regarding them and their outputs. Created by combining other synthetic character datasets which can be found at: https://shorturl.at/gjIJ5, https://shorturl.at/DFQT6 & https://shorturl.at/tHX68.
```
Structured as follows:
| Field | Description |
| -------------- | --------------------------------------------------------------- |
| name | Character name |
| categories | Categories or genres associated with the character (array) |
| personalities | Personality traits and characteristics of the character (array) |
| description | Description of the character |
| conversation | Conversational interactions involving the character (array) |
17.6k rows
```
# Flores7Lang.parquet
Seven languages merged from the Flores-200 Dataset (https://github.com/facebookresearch/flores/blob/main/flores200/README.md)
```
Structured as follows:
| Field | Description |
| --------------- | ----------------------------------------------------- |
| deu | Sentence translated into German |
| eng | Sentence translated into English |
| epo | Sentence translated into Esperanto |
| fra | Sentence translated into French |
| ita | Sentence translated into Italian |
| spa | Sentence translated into Spanish |
| tur | Sentence translated into Turkish |
2.1k rows
```
# Fraud_detection.parquet
A synthetic financial dataset intended for Fraud detection tasks (https://www.kaggle.com/datasets/ealaxi/paysim1).
```
Structured as follows:
| Field | Description |
| --------------- | ------------------------------------------------------------- |
| Step | Maps a unit of time in the real world (1 step = 1 hour) |
| Type | CASH-IN, CASH-OUT, DEBIT, PAYMENT, or TRANSFER |
| Amount | Amount of the transaction in local currency |
| nameOrig | Customer who initiated the transaction |
| oldbalanceOrg | Initial balance before the transaction |
| newbalanceOrig | Customer's balance after the transaction |
| nameDest | Recipient ID of the transaction |
| oldbalanceDest | Initial recipient balance before the transaction |
| newbalanceDest | Recipient's balance after the transaction |
| isFraud | Identifies a fraudulent transaction (1) or non-fraudulent (0) |
2.27m rows
```
许可证:MIT协议
任务类别:
- 文本分类
- 文本生成
语言:
- 英语
标签:
- 代码
美观名称:*
数据量区间:100万<n<1000万
# Parquet文件集
# 跨语言(Cross Language, CL)数据集
四个源自CORDIS项目新闻(来源:https://elrc-share.eu/)的语言对翻译数据集。
结构如下:
| 字段名 | 描述 |
| --------------- | -------------------------------------------------------------------- |
| de/es/fr/it | 对应德语、西班牙语、法语、意大利语的非英语语句转录文本 |
| en | 对应上述语句的英语翻译文本 |
每个Parquet文件约含12万条数据
# Characters.parquet数据集
该数据集为大型合成角色数据集,包含角色相关信息及其生成内容,由多个公开的合成角色数据集整合而成,原始数据集链接如下:https://shorturl.at/gjIJ5、https://shorturl.at/DFQT6 与 https://shorturl.at/tHX68。
结构如下:
| 字段名 | 描述 |
| --------------- | -------------------------------------------------------------------- |
| name | 角色名称 |
| categories | 与角色关联的类别或题材(数组格式) |
| personalities | 角色的人格特质与特征(数组格式) |
| description | 角色描述 |
| conversation | 包含该角色的对话交互内容(数组格式) |
总计17.6万条数据
# Flores7Lang.parquet数据集
该数据集从Flores-200数据集(Flores-200 Dataset,来源:https://github.com/facebookresearch/flores/blob/main/flores200/README.md)中整合了7种语言的语料。
结构如下:
| 字段名 | 描述 |
| ------- | ------------------------------------------ |
| deu | 德语译句 |
| eng | 英语译句 |
| epo | 世界语译句 |
| fra | 法语译句 |
| ita | 意大利语译句 |
| spa | 西班牙语译句 |
| tur | 土耳其语译句 |
总计2.1千条数据
# Fraud_detection.parquet数据集
该数据集为合成金融数据集,用于欺诈检测任务(来源:https://www.kaggle.com/datasets/ealaxi/paysim1)。
结构如下:
| 字段名 | 描述 |
| --------------- | -------------------------------------------------------------------- |
| Step | 映射现实世界的时间单位(1步=1小时) |
| Type | 交易类型,包括CASH-IN(现金存入)、CASH-OUT(现金取出)、DEBIT(借记)、PAYMENT(支付)或TRANSFER(转账) |
| Amount | 以当地货币计价的交易金额 |
| nameOrig | 发起交易的客户ID |
| oldbalanceOrg | 交易前发起方账户的初始余额 |
| newbalanceOrig | 交易后发起方账户的余额 |
| nameDest | 交易接收方ID |
| oldbalanceDest | 交易前接收方账户的初始余额 |
| newbalanceDest | 交易后接收方账户的余额 |
| isFraud | 交易欺诈标记,1表示欺诈交易,0表示非欺诈交易 |
总计227万条数据
提供机构:
iix
原始信息汇总
数据集概述
Parquet_Files
Cross Language (CL) Datasets
- 来源: CORDIS Project News (https://elrc-share.eu/)
- 描述: 包含四种语言对翻译的数据集。
- 结构:
字段 描述 de/es/fr/it 非英语句子 en 英语翻译句子 - 大小: 约120,000行/文件
Characters.parquet
- 描述: 包含合成角色及其相关信息的大型数据集。
- 结构:
字段 描述 name 角色名称 categories 角色关联的类别或类型(数组) personalities 角色的性格特征(数组) description 角色描述 conversation 角色参与的对话(数组) - 大小: 17,600行
Flores7Lang.parquet
- 来源: Flores-200 Dataset (https://github.com/facebookresearch/flores/blob/main/flores200/README.md)
- 描述: 包含七种语言的数据集。
- 结构:
字段 描述 deu 德语翻译句子 eng 英语翻译句子 epo 世界语翻译句子 fra 法语翻译句子 ita 意大利语翻译句子 spa 西班牙语翻译句子 tur 土耳其语翻译句子 - 大小: 2,100行
Fraud_detection.parquet
- 来源: Kaggle (https://www.kaggle.com/datasets/ealaxi/paysim1)
- 描述: 用于欺诈检测任务的合成金融数据集。
- 结构:
字段 描述 Step 现实世界中的时间单位(1步=1小时) Type 交易类型(CASH-IN, CASH-OUT, DEBIT, PAYMENT, TRANSFER) Amount 交易金额(本地货币) nameOrig 发起交易的客户 oldbalanceOrg 交易前的初始余额 newbalanceOrig 交易后的客户余额 nameDest 交易接收者ID oldbalanceDest 交易前的接收者初始余额 newbalanceDest 交易后的接收者余额 isFraud 标识欺诈交易(1)或非欺诈交易(0) - 大小: 2,270,000行
搜集汇总
数据集介绍

构建方式
在跨语言数据科学领域,iix/Parquet_FIles数据集通过整合多源异构数据构建而成。其跨语言子集源自CORDIS项目新闻的平行语料,涵盖德语、西班牙语、法语和意大利语与英语的互译对,每个文件约含12万条语句。角色数据子集则融合了三个外部合成角色数据集,系统化地提取了名称、类别、性格特征及对话记录等结构化属性。Flores7Lang子集精选自Flores-200多语言评估基准,覆盖七种语言的平行句子。欺诈检测子集基于Kaggle公开的金融仿真数据,模拟了交易时间、类型、金额及账户状态等多维度特征。
特点
该数据集展现出显著的多元异构特性,其内容跨越自然语言处理与金融计算两大领域。在语言学维度,数据集同时包含真实跨语言平行语料与合成角色对话数据,支持机器翻译、文本分类及对话生成等多重任务。其多语言覆盖不仅涉及主流欧洲语言,还包含世界语等特殊语种,为低资源语言研究提供素材。在计算金融维度,数据集通过精细标注的欺诈交易标签与完整的资金流追踪字段,构建了时序特征与类别特征交织的监督学习场景。各子集均采用Parquet列式存储格式,在保证数据压缩效率的同时,支持灵活的结构化查询。
使用方法
研究者可依据任务需求定向调用特定子集文件,利用Parquet格式的高效IO特性进行数据加载。对于跨语言研究,Flores7Lang子集可作为多语言模型评估基准,而CORDIS翻译对适用于神经机器翻译训练。角色数据子集中的分类标签与对话数组,能够支撑角色属性分析与对话系统构建。欺诈检测子集则需结合时序分析与特征工程,其Step字段可衍生时间序列模型,Type与Amount等字段适合构建交易行为画像。在使用合成数据时,建议通过交叉验证评估模型泛化能力,并注意区分仿真数据与真实场景的分布差异。
背景与挑战
背景概述
iix/Parquet_Files数据集是一个多用途的文本与结构化数据集合,由多个独立子数据集构成,涵盖了跨语言翻译、合成角色生成及金融欺诈检测等多个前沿领域。该数据集整合了来自CORDIS项目新闻的多语言平行语料、基于公开资源合成的角色信息数据,以及源自Kaggle平台的模拟金融交易记录,旨在为自然语言处理与机器学习研究提供多样化的基准资源。其创建时间可追溯至各原始数据集的发布时间,主要贡献者包括欧盟语言资源协作平台及Facebook Research等机构,核心研究问题聚焦于提升机器翻译的跨语言理解能力、增强合成数据的真实性与多样性,以及优化金融欺诈检测模型的泛化性能,对推动多模态人工智能应用具有显著影响力。
当前挑战
该数据集面临的挑战主要体现在两个方面:在领域问题层面,跨语言翻译子集需应对低资源语言对(如世界语)的语义对齐难题,合成角色数据则需克服生成文本的连贯性与角色一致性保持问题,而金融欺诈检测任务则因数据高度不平衡与模拟环境局限性,导致模型在真实场景中的泛化能力受限。在构建过程中,挑战包括多源异构数据的格式统一与质量校验,例如整合不同结构的Parquet文件时需确保字段映射的准确性;同时,合成数据的生成依赖于外部资源,可能存在版权与伦理边界模糊的风险,且金融数据的模拟性质可能无法完全复现现实交易的复杂模式,这些因素均对数据集的可靠性与应用广度构成制约。
常用场景
经典使用场景
在自然语言处理领域,多语言翻译与文本生成任务常面临数据稀缺的挑战。iix/Parquet_Files数据集通过整合跨语言平行语料、合成角色对话及金融欺诈检测数据,为机器翻译、对话系统与异常检测模型提供了丰富的训练资源。其经典使用场景包括利用Flores7Lang子集进行多语言神经机器翻译模型的微调与评估,借助Characters.parquet构建个性化角色对话生成系统,以及通过Fraud_detection.parquet训练金融交易异常分类器。这些结构化数据支持端到端的模型开发流程,显著提升了跨领域任务的实验效率。
实际应用
在实际应用层面,该数据集支撑了多语言服务与智能系统的落地。基于Flores7Lang训练的翻译引擎可集成于跨国企业文档处理平台,提升多语言内容本地化效率;Characters.parquet衍生的角色对话模型能够赋能虚拟助手与游戏NPC,实现更具人格化的交互体验。Fraud_detection.parquet则广泛应用于银行业务监控系统,通过实时交易流分析识别可疑模式,辅助风险决策。这些应用不仅优化了跨语言沟通与娱乐产业体验,也为金融安全提供了可扩展的技术解决方案。
衍生相关工作
围绕该数据集衍生的经典工作涵盖多模态学习与领域迁移方向。例如,研究者结合Characters.parquet的角色属性与对话序列,开发了基于注意力机制的角色一致性生成框架;利用Flores7Lang与Cross Language数据,提出了跨语言预训练模型的零样本迁移方法,显著提升了低资源语言的翻译鲁棒性。在金融科技领域,基于Fraud_detection.parquet的图神经网络与时序异常检测模型,已成为欺诈检测学术论文中常用的基准对比方案。这些工作进一步拓展了数据集的学术影响力,并催生了如多语言对话生成、不平衡数据分类等新兴研究方向。
以上内容由遇见数据集搜集并总结生成



