umarbutler/open-australian-legal-embeddings
收藏Open Australian Legal Embeddings 数据集概述
基本信息
- 语言: 英语
- 许可证: 开放澳大利亚法律语料库许可证
- 标签: 法律, 澳大利亚, 嵌入
- 注释创建者: 无注释
- 语言创建者: 发现
- 语言详情: 澳大利亚英语, 英国英语
- 数据集名称: Open Australian Legal Embeddings
- 数据集大小: 1M<n<10M
- 源数据集: umarbutler/open-australian-legal-corpus
- 任务类别: 文本检索
- 任务ID: 文档检索
数据集信息
- 特征:
version_id: 字符串type: 字符串jurisdiction: 字符串source: 字符串citation: 字符串url: 字符串is_last_chunk: 布尔值text: 字符串embedding: 浮点数列表
- 配置名称: train
- 分割:
train:num_bytes: 28500857221num_examples: 5208238
- 下载大小: 45586801753
- 数据集大小: 28500857221
使用方法
以下代码片段展示了如何通过 Hugging Face Datasets Python 库加载和查询嵌入: python import itertools import sklearn.metrics.pairwise
from datasets import load_dataset from sentence_transformers import SentenceTransformer
model = SentenceTransformer(BAAI/bge-small-en-v1.5) instruction = Represent this sentence for searching relevant passages:
Load the embeddings.
oale = load_dataset(open_australian_legal_embeddings.py, split=train)
Sample the first 100,000 embeddings.
sample = list(itertools.islice(oale, 100000))
Embed a query.
query = model.encode(instruction + Who is the Governor-General of Australia?, normalize_embeddings=True)
Identify the most similar embedding to the query.
similarities = sklearn.metrics.pairwise.cosine_similarity([query], [embedding[embedding] for embedding in sample]) most_similar_index = similarities.argmax() most_similar = sample[most_similar_index]
Print the most similar text.
print(most_similar[text])
结构
嵌入存储在 data/embeddings.jsonl 中,每个行是一个包含 384 个 32 位浮点数的列表。关联的元数据存储在 data/metadatas.jsonl 中,相应的文本存储在 data/texts.jsonl 中。
创建过程
所有文档在 Open Australian Legal Corpus 中被分割成最多 512 个令牌的语义上有意义的块,并使用 semchunk Python 库进行处理。这些块包括文档标题、管辖区域和类型的嵌入头。
许可证
嵌入根据 Open Australian Legal Corpus 的许可证进行分发。
引用
如果您的作品依赖于这些嵌入,请引用: latex @misc{butler-2023-open-australian-legal-embeddings, author = {Butler, Umar}, year = {2023}, title = {Open Australian Legal Embeddings}, publisher = {Hugging Face}, version = {1.0.0}, doi = {10.57967/hf/1347}, url = {https://huggingface.co/datasets/umarbutler/open-australian-legal-embeddings} }



