five

AI Ready Data

收藏
Snowflake2024-10-07 更新2024-10-08 收录
下载链接:
https://app.snowflake.com/marketplace/listing/GZTSZ1389RK
下载链接
链接失效反馈
官方服务:
资源简介:
The AI Ready Data dataset encompasses a comprehensive array of textual content across Energy publications produced by in-house editorial and research teams, including market reports, news articles, rationales, commentaries, fundamentals analyses, outlooks, and more - all in an LLM-friendly format prepared for seamless integration with AI systems.<br/><br/>Customers can effortlessly leverage AI Ready Data for their Retrieval-Augmented Generation (RAG) solutions, enhancing their analytical capabilities and driving informed decision-making. This dataset removes restrictions as you integrate your choice of large language models (LLMs), to uncover patterns, correlations, and insights across commodities. Our flexibility aids processing and understanding data to suit your organizations, and you can utilize the provided data embeddings or set your own as per your preference. Additionally, you can integrate with your own vector database and leverage various internal and external data sources to enrich the dataset.<br/><br/>This dataset includes: - Unstructured data in an AI-ready format broken down into documents and segments with LLM-friendly metadata - Flexible data delivery - Easy customization of your own search and relevancy-boosting algorithms - Ease of discovery of relevant content for your end users <p><br/></p> Sample Tables A ) DOCUMENT_METADATA B ) SEGMENT_METADATA <p><br/></p> Sample Fields: A ) DOCUMENT_METADATA - PUBLISHED - UPDATED - FILETYPE - FILESIZE - SOURCEURl - REPORTINGFREQUENCY - PRIMARYENTITYTYPE - PRIMARYENTITYNAME - DOCUMENT_PRIMARY_ENTITY_IDF - OTHERDOCUMENTMETADATA B ) SEGMENT_METADATA - DOCUMENTID - SEGMENTATIONSTRATEGY - SEGMENTID - SEGMENTTYPE - SEGMENTLOCATION - RAWSEGMENTCONTENT - PROCESSEDSEGMENTCONTENT - LANGUAGE - SEGMENTOVERLAP - OTHERSEGMENTMETADATA - SEGMENTEMBEDDINGS - SEGMENTORDER Table Descriptions: - DOCUMENT_METADATA - Contains metadata about various documents such as id, name, file type, size, sourceURL, and reportingFrequency. Additionally, it includes related tags like primary entity, commodity, geography, and any additional metadata that helps in identifying the document. - SEGMENT_METADATA - Contains chunked segments from documents along with metadata such as related document id, segment id, type, location, along with the processed and raw content of the segment. Additionally, it contains information on the segmentation strategy used to chunk the data and the embedding ids for each segment.

本AI就绪数据集(AI Ready Data)涵盖由内部编辑与研究团队产出的全品类能源行业出版物文本内容,包括市场报告、新闻稿件、论证阐释、评论文章、基本面分析、行业展望等全部内容,均采用适配大语言模型(LLM)的格式制作,可无缝对接各类AI系统。 客户可轻松将本AI就绪数据集应用于其检索增强生成(Retrieval-Augmented Generation, RAG)解决方案,以此强化分析能力并助力科学决策。本数据集无大语言模型(LLM)集成限制,支持用户自选适配模型,以挖掘大宗商品领域的各类模式、关联关系与洞见。本数据集具备高度灵活性,可适配不同机构的数据处理与理解需求;用户既可使用内置的数据嵌入向量(data embeddings),也可根据自身偏好自定义嵌入向量。此外,用户还可对接自有向量数据库(vector database),并整合各类内外部数据源以丰富数据集内容。 本数据集包含以下内容: - 采用AI就绪格式的非结构化数据,已拆分为文档与片段,并附带适配大语言模型的元数据 - 灵活的数据交付方式 - 支持用户自定义搜索与相关性增强算法 - 便于终端用户快速检索相关内容 示例表格 A ) 文档元数据(DOCUMENT_METADATA) B ) 片段元数据(SEGMENT_METADATA) 示例字段 A ) 文档元数据(DOCUMENT_METADATA) - PUBLISHED(发布时间) - UPDATED(更新时间) - FILETYPE(文件类型) - FILESIZE(文件大小) - SOURCEURL(源链接) - REPORTINGFREQUENCY(报告频率) - PRIMARYENTITYTYPE(核心实体类型) - PRIMARYENTITYNAME(核心实体名称) - DOCUMENT_PRIMARY_ENTITY_IDF(文档核心实体IDF) - OTHERDOCUMENTMETADATA(其他文档元数据) B ) 片段元数据(SEGMENT_METADATA) - DOCUMENTID(文档ID) - SEGMENTATIONSTRATEGY(分段策略) - SEGMENTID(片段ID) - SEGMENTTYPE(片段类型) - SEGMENTLOCATION(片段位置) - RAWSEGMENTCONTENT(原始片段内容) - PROCESSEDSEGMENTCONTENT(已处理片段内容) - LANGUAGE(语言) - SEGMENTOVERLAP(片段重叠度) - OTHERSEGMENTMETADATA(其他片段元数据) - SEGMENTEMBEDDINGS(片段嵌入向量) - SEGMENTORDER(片段顺序) 表格说明: - 文档元数据(DOCUMENT_METADATA):包含各类文档的元信息,如文档ID、名称、文件类型、大小、源链接、报告频率等;此外还涵盖相关标签,如核心实体、大宗商品、地域信息,以及其他可用于标识文档的元数据。 - 片段元数据(SEGMENT_METADATA):包含文档拆分后的分块片段及其元数据,如关联文档ID、片段ID、类型、位置,以及片段的原始内容与已处理内容;此外还包含用于拆分数据的分段策略信息,以及每个片段的嵌入向量ID。
提供机构:
S&P Global Energy
创建时间:
2024-09-04
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
AI Ready Data是由S&P Global Energy提供的能源领域文本数据集,包含市场报告、新闻等多种内容,专为大型语言模型优化,支持检索增强生成(RAG)解决方案和自定义数据嵌入。数据集提供详细的文档和段落元数据,便于AI系统集成和分析。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作