python是如何操作HDF5文件的,看完这篇文章你就全懂了

HDF

Hierarchical Data Format,又称HDF5

  • 在深度学习中,通常会使用巨量的数据或图片来训练网络。对于如此大的数据集,如果对于每张图片都单独从硬盘读取、预处理、之后再送入网络进行训练、验证或是测试,这样效率太低。如果将这些图片都放入一个文件中再进行处理效率会更高。有多种数据模型和库可完成这种操作,如HDF5和TFRecord。

  • 一个HDF5文件是一种存放两类对象的容器:dataset和group. Dataset是类似于数组的数据集,而group是类似文件夹一样的容器,存放dataset和其他group。在使用h5py的时候需要牢记一句话:groups类比词典,dataset类比Numpy中的数组。

  1. python是如何操作HDF5文件的,看完这篇文章你就全懂了
  • HDF5 文件一般以 .h5 或者 .hdf5 作为后缀名,需要专门的软件才能打开预览文件的内容。HDF5 文件结构中有 2 primary objects: Groups 和 Datasets。
  • 每个 dataset 可以分成两部分: 原始数据 (raw) data values 和 元数据 metadata (a set of data that describes and gives information about other data => raw data)。对于每一个dataset 而言,除了数据本身之外,这个数据集还会有很多的属性 attribute,。在hdf5中,还同时支持存储数据集对应的属性信息,所有的属性信息的集合就叫做metadata. python是如何操作HDF5文件的,看完这篇文章你就全懂了安装:

pip install h5py

对于数据集需要: 先创建h5文件,再去读h5文件 将dataset放在group里利用group进行层次嵌套.

一般:

  1. HDF5格式文件保存的是 : Model weights(字典,没有顺序)

  2. JSON 和 YAML 格式文件保存的是: Model structure(顺序靠json描述)

  3. h5格式:可以同时保存weights和structure

利用numpy数据初始化

数据处理上的用途

利用python的文件操作及数组等方式将训练数据及测试数据集标签,按数据划分方法,将文件名写入到python数组,最终将这些处理好的数组写入hdf5格式文件给dataset初始化.

示例

注意:

写字符串到h5文件

从h5数据读出字符串格式

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树首页概览208102 人正在系统学习中

来源:老贡讲Python

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2021年10月21日
下一篇 2021年10月21日

相关推荐