five

iix/Parquet_FIles

收藏
Hugging Face2023-10-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/iix/Parquet_FIles
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: mit task_categories: - text-classification - text-generation language: - en tags: - code pretty_name: '*' size_categories: - 1M<n<10M --- # Parquet_Files # Cross Language (CL) Datasets Four datasets of language pair translations originating from CORDIS Project News (https://elrc-share.eu/) ``` Structured as follows: | Field | Description | | --------------- | ----------------------------------------------------------------------- | | de/es/fr/it | Non-English transcripts of sentences | | en | English translations of sentences | 120k rows (approx. per parquet file) ``` # Characters.parquet One large dataset of synthetic characters, information regarding them and their outputs. Created by combining other synthetic character datasets which can be found at: https://shorturl.at/gjIJ5, https://shorturl.at/DFQT6 & https://shorturl.at/tHX68. ``` Structured as follows: | Field | Description | | -------------- | --------------------------------------------------------------- | | name | Character name | | categories | Categories or genres associated with the character (array) | | personalities | Personality traits and characteristics of the character (array) | | description | Description of the character | | conversation | Conversational interactions involving the character (array) | 17.6k rows ``` # Flores7Lang.parquet Seven languages merged from the Flores-200 Dataset (https://github.com/facebookresearch/flores/blob/main/flores200/README.md) ``` Structured as follows: | Field | Description | | --------------- | ----------------------------------------------------- | | deu | Sentence translated into German | | eng | Sentence translated into English | | epo | Sentence translated into Esperanto | | fra | Sentence translated into French | | ita | Sentence translated into Italian | | spa | Sentence translated into Spanish | | tur | Sentence translated into Turkish | 2.1k rows ``` # Fraud_detection.parquet A synthetic financial dataset intended for Fraud detection tasks (https://www.kaggle.com/datasets/ealaxi/paysim1). ``` Structured as follows: | Field | Description | | --------------- | ------------------------------------------------------------- | | Step | Maps a unit of time in the real world (1 step = 1 hour) | | Type | CASH-IN, CASH-OUT, DEBIT, PAYMENT, or TRANSFER | | Amount | Amount of the transaction in local currency | | nameOrig | Customer who initiated the transaction | | oldbalanceOrg | Initial balance before the transaction | | newbalanceOrig | Customer's balance after the transaction | | nameDest | Recipient ID of the transaction | | oldbalanceDest | Initial recipient balance before the transaction | | newbalanceDest | Recipient's balance after the transaction | | isFraud | Identifies a fraudulent transaction (1) or non-fraudulent (0) | 2.27m rows ```

许可证:MIT协议 任务类别: - 文本分类 - 文本生成 语言: - 英语 标签: - 代码 美观名称:* 数据量区间:100万<n<1000万 # Parquet文件集 # 跨语言(Cross Language, CL)数据集 四个源自CORDIS项目新闻(来源:https://elrc-share.eu/)的语言对翻译数据集。 结构如下: | 字段名 | 描述 | | --------------- | -------------------------------------------------------------------- | | de/es/fr/it | 对应德语、西班牙语、法语、意大利语的非英语语句转录文本 | | en | 对应上述语句的英语翻译文本 | 每个Parquet文件约含12万条数据 # Characters.parquet数据集 该数据集为大型合成角色数据集,包含角色相关信息及其生成内容,由多个公开的合成角色数据集整合而成,原始数据集链接如下:https://shorturl.at/gjIJ5、https://shorturl.at/DFQT6 与 https://shorturl.at/tHX68。 结构如下: | 字段名 | 描述 | | --------------- | -------------------------------------------------------------------- | | name | 角色名称 | | categories | 与角色关联的类别或题材(数组格式) | | personalities | 角色的人格特质与特征(数组格式) | | description | 角色描述 | | conversation | 包含该角色的对话交互内容(数组格式) | 总计17.6万条数据 # Flores7Lang.parquet数据集 该数据集从Flores-200数据集(Flores-200 Dataset,来源:https://github.com/facebookresearch/flores/blob/main/flores200/README.md)中整合了7种语言的语料。 结构如下: | 字段名 | 描述 | | ------- | ------------------------------------------ | | deu | 德语译句 | | eng | 英语译句 | | epo | 世界语译句 | | fra | 法语译句 | | ita | 意大利语译句 | | spa | 西班牙语译句 | | tur | 土耳其语译句 | 总计2.1千条数据 # Fraud_detection.parquet数据集 该数据集为合成金融数据集,用于欺诈检测任务(来源:https://www.kaggle.com/datasets/ealaxi/paysim1)。 结构如下: | 字段名 | 描述 | | --------------- | -------------------------------------------------------------------- | | Step | 映射现实世界的时间单位(1步=1小时) | | Type | 交易类型,包括CASH-IN(现金存入)、CASH-OUT(现金取出)、DEBIT(借记)、PAYMENT(支付)或TRANSFER(转账) | | Amount | 以当地货币计价的交易金额 | | nameOrig | 发起交易的客户ID | | oldbalanceOrg | 交易前发起方账户的初始余额 | | newbalanceOrig | 交易后发起方账户的余额 | | nameDest | 交易接收方ID | | oldbalanceDest | 交易前接收方账户的初始余额 | | newbalanceDest | 交易后接收方账户的余额 | | isFraud | 交易欺诈标记,1表示欺诈交易,0表示非欺诈交易 | 总计227万条数据
提供机构:
iix
原始信息汇总

数据集概述

Parquet_Files

Cross Language (CL) Datasets

  • 来源: CORDIS Project News (https://elrc-share.eu/)
  • 描述: 包含四种语言对翻译的数据集。
  • 结构:
    字段 描述
    de/es/fr/it 非英语句子
    en 英语翻译句子
  • 大小: 约120,000行/文件

Characters.parquet

  • 描述: 包含合成角色及其相关信息的大型数据集。
  • 结构:
    字段 描述
    name 角色名称
    categories 角色关联的类别或类型(数组)
    personalities 角色的性格特征(数组)
    description 角色描述
    conversation 角色参与的对话(数组)
  • 大小: 17,600行

Flores7Lang.parquet

  • 来源: Flores-200 Dataset (https://github.com/facebookresearch/flores/blob/main/flores200/README.md)
  • 描述: 包含七种语言的数据集。
  • 结构:
    字段 描述
    deu 德语翻译句子
    eng 英语翻译句子
    epo 世界语翻译句子
    fra 法语翻译句子
    ita 意大利语翻译句子
    spa 西班牙语翻译句子
    tur 土耳其语翻译句子
  • 大小: 2,100行

Fraud_detection.parquet

  • 来源: Kaggle (https://www.kaggle.com/datasets/ealaxi/paysim1)
  • 描述: 用于欺诈检测任务的合成金融数据集。
  • 结构:
    字段 描述
    Step 现实世界中的时间单位(1步=1小时)
    Type 交易类型(CASH-IN, CASH-OUT, DEBIT, PAYMENT, TRANSFER)
    Amount 交易金额(本地货币)
    nameOrig 发起交易的客户
    oldbalanceOrg 交易前的初始余额
    newbalanceOrig 交易后的客户余额
    nameDest 交易接收者ID
    oldbalanceDest 交易前的接收者初始余额
    newbalanceDest 交易后的接收者余额
    isFraud 标识欺诈交易(1)或非欺诈交易(0)
  • 大小: 2,270,000行
搜集汇总
数据集介绍
main_image_url
构建方式
在跨语言数据科学领域,iix/Parquet_FIles数据集通过整合多源异构数据构建而成。其跨语言子集源自CORDIS项目新闻的平行语料,涵盖德语、西班牙语、法语和意大利语与英语的互译对,每个文件约含12万条语句。角色数据子集则融合了三个外部合成角色数据集,系统化地提取了名称、类别、性格特征及对话记录等结构化属性。Flores7Lang子集精选自Flores-200多语言评估基准,覆盖七种语言的平行句子。欺诈检测子集基于Kaggle公开的金融仿真数据,模拟了交易时间、类型、金额及账户状态等多维度特征。
特点
该数据集展现出显著的多元异构特性,其内容跨越自然语言处理与金融计算两大领域。在语言学维度,数据集同时包含真实跨语言平行语料与合成角色对话数据,支持机器翻译、文本分类及对话生成等多重任务。其多语言覆盖不仅涉及主流欧洲语言,还包含世界语等特殊语种,为低资源语言研究提供素材。在计算金融维度,数据集通过精细标注的欺诈交易标签与完整的资金流追踪字段,构建了时序特征与类别特征交织的监督学习场景。各子集均采用Parquet列式存储格式,在保证数据压缩效率的同时,支持灵活的结构化查询。
使用方法
研究者可依据任务需求定向调用特定子集文件,利用Parquet格式的高效IO特性进行数据加载。对于跨语言研究,Flores7Lang子集可作为多语言模型评估基准,而CORDIS翻译对适用于神经机器翻译训练。角色数据子集中的分类标签与对话数组,能够支撑角色属性分析与对话系统构建。欺诈检测子集则需结合时序分析与特征工程,其Step字段可衍生时间序列模型,Type与Amount等字段适合构建交易行为画像。在使用合成数据时,建议通过交叉验证评估模型泛化能力,并注意区分仿真数据与真实场景的分布差异。
背景与挑战
背景概述
iix/Parquet_Files数据集是一个多用途的文本与结构化数据集合,由多个独立子数据集构成,涵盖了跨语言翻译、合成角色生成及金融欺诈检测等多个前沿领域。该数据集整合了来自CORDIS项目新闻的多语言平行语料、基于公开资源合成的角色信息数据,以及源自Kaggle平台的模拟金融交易记录,旨在为自然语言处理与机器学习研究提供多样化的基准资源。其创建时间可追溯至各原始数据集的发布时间,主要贡献者包括欧盟语言资源协作平台及Facebook Research等机构,核心研究问题聚焦于提升机器翻译的跨语言理解能力、增强合成数据的真实性与多样性,以及优化金融欺诈检测模型的泛化性能,对推动多模态人工智能应用具有显著影响力。
当前挑战
该数据集面临的挑战主要体现在两个方面:在领域问题层面,跨语言翻译子集需应对低资源语言对(如世界语)的语义对齐难题,合成角色数据则需克服生成文本的连贯性与角色一致性保持问题,而金融欺诈检测任务则因数据高度不平衡与模拟环境局限性,导致模型在真实场景中的泛化能力受限。在构建过程中,挑战包括多源异构数据的格式统一与质量校验,例如整合不同结构的Parquet文件时需确保字段映射的准确性;同时,合成数据的生成依赖于外部资源,可能存在版权与伦理边界模糊的风险,且金融数据的模拟性质可能无法完全复现现实交易的复杂模式,这些因素均对数据集的可靠性与应用广度构成制约。
常用场景
经典使用场景
在自然语言处理领域,多语言翻译与文本生成任务常面临数据稀缺的挑战。iix/Parquet_Files数据集通过整合跨语言平行语料、合成角色对话及金融欺诈检测数据,为机器翻译、对话系统与异常检测模型提供了丰富的训练资源。其经典使用场景包括利用Flores7Lang子集进行多语言神经机器翻译模型的微调与评估,借助Characters.parquet构建个性化角色对话生成系统,以及通过Fraud_detection.parquet训练金融交易异常分类器。这些结构化数据支持端到端的模型开发流程,显著提升了跨领域任务的实验效率。
实际应用
在实际应用层面,该数据集支撑了多语言服务与智能系统的落地。基于Flores7Lang训练的翻译引擎可集成于跨国企业文档处理平台,提升多语言内容本地化效率;Characters.parquet衍生的角色对话模型能够赋能虚拟助手与游戏NPC,实现更具人格化的交互体验。Fraud_detection.parquet则广泛应用于银行业务监控系统,通过实时交易流分析识别可疑模式,辅助风险决策。这些应用不仅优化了跨语言沟通与娱乐产业体验,也为金融安全提供了可扩展的技术解决方案。
衍生相关工作
围绕该数据集衍生的经典工作涵盖多模态学习与领域迁移方向。例如,研究者结合Characters.parquet的角色属性与对话序列,开发了基于注意力机制的角色一致性生成框架;利用Flores7Lang与Cross Language数据,提出了跨语言预训练模型的零样本迁移方法,显著提升了低资源语言的翻译鲁棒性。在金融科技领域,基于Fraud_detection.parquet的图神经网络与时序异常检测模型,已成为欺诈检测学术论文中常用的基准对比方案。这些工作进一步拓展了数据集的学术影响力,并催生了如多语言对话生成、不平衡数据分类等新兴研究方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作