博客
关于我
json数据格式
阅读量:539 次
发布时间:2019-03-09

本文共 2633 字,大约阅读时间需要 8 分钟。

JSON数据格式是常用的数据交换格式,广泛应用于机器学习、数据分析等领域。在ICDAR(ICdar一个IDAR标注任务)中,JSON格式被广泛用于标注训练数据。以下是一个典型的JSON数据示例,展示了图像标注的具体结构:

{  "data_root": "datasets/data/train",  "data_list": [    {      "img_name": "X00016469670.jpg",      "annotations": [        {          "polygon": [            [98.0, 26.0],            [321.0, 26.0],            [321.0, 66.0],            [98.0, 66.0]          ],          "text": "TAN CHAY YEE",          "illegibility": false,          "language": "Latin",          "chars": [            {              "polygon": [],              "char": "",              "illegibility": false,              "language": "Latin"            }          ]        },        # ... 其他注释      ]    }  ]}

JSON数据结构解析

  • data_root:指定了数据集的基础路径。
  • data_list:包含了所有待处理图像的信息。每个图像包含以下子项:
    • img_name:图像文件名。
    • annotations:图像的标注结果,包括:
      • polygon:多边形边界坐标,用于标注图像中的特定区域。
      • text:标注的文本内容。
      • illegibility:标注是否存在不清晰字符。
      • language:标注语言(如Latin表示拉丁文字母)。
      • chars:单个字符的标注信息,包括字符位置和不清晰度。
  • JSON到ICDAR标注脚本的功能说明

    以下是一个用于将JSON格式数据转换为ICDAR标注文件的Python脚本示例:

    # -*- coding: utf-8 -*-import globimport os.pathimport numpy as npimport shutilimport jsonINPUT_PATH = "E:/card_data/card_autolabel/20200116"def jsonTotxt(jsonfile):    filename = os.path.split(jsonfile)[1].split('.')[0]    savefile = os.path.join("E:/datasets/icdar", filename + '.txt')        # 读取JSON文件    with open(jsonfile, 'r') as f:        b = f.read()        data = json.loads(b)        # 写入文本文件    with open(savefile, "a", encoding='utf-8') as f:        for coordict in data['shapes']:            coordlist = coordict['points']            for point in coordlist:                f.write(str(point).replace('[','').replace(']','') + ',')            f.write('###\n')# 执行批量处理shutil.rmtree("E:/datasets/icdar/", ignore_errors=True)sub_dirs = [x[0] for x in os.walk(INPUT_PATH)]is_rootdir = Truefor sub_dir in sub_dirs:    if is_rootdir:        is_rootdir = False        continue        extensions_images = ['jpg', 'JPG', 'jpeg', 'JPEG']    extensions_labels = 'json'        images_list = []    for extension in extensions_images:        images_glob = os.path.join(INPUT_PATH, '*.' + extension)        images_list.extend(glob.glob(images_glob))        if not images_list:        continue        for image in images_list:        shutil.copy(image, "E:/datasets/icdar/")        json_glob = os.path.join(INPUT_PATH, '*.' + extensions_labels)    json_lists = glob.glob(json_glob)        for json_list in json_lists:        jsonTotxt(json_list)

    ###Script 功能说明

  • 文件清理:删除目标目录中所有现有的文件和目录。
  • 图像分类与复制:遍历指定路径中的所有图像文件,根据文件扩展名分类并将文件复制到目标目录中。
  • JSON转TXT:读取每个JSON文件,将其转换为文本文件,记录图像的标注信息。
  • 标注处理:解析JSON中的标注信息,按照预定格式将标注结果写入文本文件。
  • 该脚本适用于大规模图像数据的标注转换任务,支持批量处理,确保处理效率。

    转载地址:http://ptqiz.baihongyu.com/

    你可能感兴趣的文章
    NIFI1.21.0_NIFI和hadoop蹦了_200G集群磁盘又满了_Jps看不到进程了_Unable to write in /tmp. Aborting----大数据之Nifi工作笔记0052
    查看>>
    NIFI1.21.0最新版本安装_连接phoenix_单机版_Https登录_什么都没改换了最新版本的NIFI可以连接了_气人_实现插入数据到Hbase_实际操作---大数据之Nifi工作笔记0050
    查看>>
    NIFI1.21.0通过Postgresql11的CDC逻辑复制槽实现_指定表多表增量同步_增删改数据分发及删除数据实时同步_通过分页解决变更记录过大问题_02----大数据之Nifi工作笔记0054
    查看>>
    NIFI1.21.0通过Postgresql11的CDC逻辑复制槽实现_指定表多表增量同步_插入修改删除增量数据实时同步_通过分页解决变更记录过大问题_01----大数据之Nifi工作笔记0053
    查看>>
    NIFI1.21.0通过Postgresql11的CDC逻辑复制槽实现_指定表或全表增量同步_实现指定整库同步_或指定数据表同步配置_04---大数据之Nifi工作笔记0056
    查看>>
    NIFI1.23.2_最新版_性能优化通用_技巧积累_使用NIFI表达式过滤表_随时更新---大数据之Nifi工作笔记0063
    查看>>
    NIFI从MySql中增量同步数据_通过Mysql的binlog功能_实时同步mysql数据_根据binlog实现数据实时delete同步_实际操作04---大数据之Nifi工作笔记0043
    查看>>
    NIFI从MySql中增量同步数据_通过Mysql的binlog功能_实时同步mysql数据_配置binlog_使用处理器抓取binlog数据_实际操作01---大数据之Nifi工作笔记0040
    查看>>
    NIFI从MySql中增量同步数据_通过Mysql的binlog功能_实时同步mysql数据_配置数据路由_实现数据插入数据到目标数据库_实际操作03---大数据之Nifi工作笔记0042
    查看>>
    NIFI从MySql中增量同步数据_通过Mysql的binlog功能_实时同步mysql数据_配置数据路由_生成插入Sql语句_实际操作02---大数据之Nifi工作笔记0041
    查看>>
    NIFI从MySql中离线读取数据再导入到MySql中_03_来吧用NIFI实现_数据分页获取功能---大数据之Nifi工作笔记0038
    查看>>
    NIFI从MySql中离线读取数据再导入到MySql中_不带分页处理_01_QueryDatabaseTable获取数据_原0036---大数据之Nifi工作笔记0064
    查看>>
    NIFI从MySql中离线读取数据再导入到MySql中_无分页功能_02_转换数据_分割数据_提取JSON数据_替换拼接SQL_添加分页---大数据之Nifi工作笔记0037
    查看>>
    NIFI从PostGresql中离线读取数据再导入到MySql中_带有数据分页获取功能_不带分页不能用_NIFI资料太少了---大数据之Nifi工作笔记0039
    查看>>
    nifi使用过程-常见问题-以及入门总结---大数据之Nifi工作笔记0012
    查看>>
    NIFI分页获取Mysql数据_导入到Hbase中_并可通过phoenix客户端查询_含金量很高的一篇_搞了好久_实际操作05---大数据之Nifi工作笔记0045
    查看>>
    NIFI分页获取Postgresql数据到Hbase中_实际操作---大数据之Nifi工作笔记0049
    查看>>
    NIFI同步MySql数据_到SqlServer_错误_驱动程序无法通过使用安全套接字层(SSL)加密与SQL Server_Navicat连接SqlServer---大数据之Nifi工作笔记0047
    查看>>
    Nifi同步过程中报错create_time字段找不到_实际目标表和源表中没有这个字段---大数据之Nifi工作笔记0066
    查看>>
    NIFI大数据进阶_FlowFile拓扑_对FlowFile内容和属性的修改删除添加_介绍和描述_以及实际操作---大数据之Nifi工作笔记0023
    查看>>