five

ayousanz/oscor-2301-ja-text-content

收藏
Hugging Face2024-04-22 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/ayousanz/oscor-2301-ja-text-content
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc0-1.0 language: - ja --- OSCOR-2301-jaのcontent部分だけをテキスト化したもの データセットからcontentのvalueだけ取得する際には、以下のコードで実行しました ```python import json import os import sys # コマンドライン引数からフォルダ名を取得する if len(sys.argv) < 2: print("使用法: python script.py folder_name") sys.exit(1) folder_name = sys.argv[1] # フォルダ内のすべての .json ファイルを処理する for filename in os.listdir(folder_name): if filename.endswith(".txt"): input_file = os.path.join(folder_name, filename) output_file = os.path.splitext(filename)[0] + "_convert.txt" output_path = os.path.join(folder_name, output_file) # 出力テキストファイルを開く with open(output_path, "w", encoding="utf-8") as outfile: # 入力JSONファイルを1行ずつ読み込む with open(input_file, "r", encoding="utf-8") as infile: for line in infile: # JSONを解析する data = json.loads(line) # "content" フィールドが存在する場合のみ処理する if "content" in data: content = data["content"] # "content" の内容をテキストファイルに書き込む outfile.write(content + "\n") print(f"変換が完了しました。出力ファイル: {output_file}") print("すべてのファイルの変換が完了しました。") ```
提供机构:
ayousanz
原始信息汇总

数据集概述

数据集名称

OSCOR-2301-ja

数据集内容

仅包含原始数据集中的"content"部分的文本数据。

数据集处理方法

使用Python脚本从原始JSON文件中提取"content"字段的值,并将其转换为文本文件。处理步骤包括:

  1. 从命令行获取文件夹名。
  2. 遍历文件夹内所有以.txt结尾的文件。
  3. 读取每个JSON文件的每一行,解析JSON数据。
  4. 检查是否存在"content"字段,若存在则提取其内容。
  5. 将提取的"content"内容写入新的文本文件。

数据集语言

日语(ja)

数据集许可证

CC0-1.0

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作