9赞

用于编写Tensorflow TFRecords数据文件的纯Java/Scala代码

作者：mylvfamily | 2023-09-07 20:15

如何解决《用于编写TensorflowTFRecords数据文件的纯Java/Scala代码》经验，为你挑选了1个好方法。

我正在尝试编写Tensorflow RecordWriter类的纯Java/Scala实现,以便将Spark DataFrame转换为TFRecords文件.根据文档,在TFRecords中,每条记录的格式如下:

uint64 length
uint32 masked_crc32_of_length
byte   data[length]
uint32 masked_crc32_of_data

和CRC掩码

masked_crc = ((crc >> 15) | (crc << 17)) + 0xa282ead8ul

目前,我使用以下代码使用guava实现计算CRC:

import com.google.common.hash.Hashing

object CRC32 {
  val kMaskDelta = 0xa282ead8

  def hash(in: Array[Byte]): Int = {
    val hashing = Hashing.crc32c()
    hashing.hashBytes(in).asInt()
  }

  def mask(crc: Int): Int ={
    ((crc >> 15) | (crc << 17)) + kMaskDelta
  }
}



我的其余代码是: 

数据编码部分使用以下代码完成:

  object LittleEndianEncoding {
   def encodeLong(in: Long): Array[Byte] = {
    val baos = new ByteArrayOutputStream()
    val out = new LittleEndianDataOutputStream(baos)
    out.writeLong(in)
    baos.toByteArray
  }

  def encodeInt(in: Int): Array[Byte] = {
    val baos = new ByteArrayOutputStream()
    val out = new LittleEndianDataOutputStream(baos)

    out.writeInt(in)
    baos.toByteArray
  }
}


使用协议缓冲区生成记录:

import com.google.protobuf.ByteString
import org.tensorflow.example._

import collection.JavaConversions._
import collection.mutable._

object TFRecord {

  def int64Feature(in: Long): Feature = {

    val valueBuilder = Int64List.newBuilder()
    valueBuilder.addValue(in)

    Feature.newBuilder()
      .setInt64List(valueBuilder.build())
      .build()
  }


  def floatFeature(in: Float): Feature = {
    val valueBuilder = FloatList.newBuilder()
    valueBuilder.addValue(in)
    Feature.newBuilder()
      .setFloatList(valueBuilder.build())
      .build()
  }

  def floatVectorFeature(in: Array[Float]): Feature = {
    val valueBuilder = FloatList.newBuilder()
    in.foreach(valueBuilder.addValue)

    Feature.newBuilder()
      .setFloatList(valueBuilder.build())
      .build()
  }

  def bytesFeature(in: Array[Byte]): Feature = {
    val valueBuilder = BytesList.newBuilder()
    valueBuilder.addValue(ByteString.copyFrom(in))
    Feature.newBuilder()
      .setBytesList(valueBuilder.build())
      .build()
  }

  def makeFeatures(features: HashMap[String, Feature]): Features = {
    Features.newBuilder().putAllFeature(features).build()
  }


  def makeExample(features: Features): Example = {
    Example.newBuilder().setFeatures(features).build()
  }

}


以下是我如何一起使用以生成TFRecords文件的示例:

val label = TFRecord.int64Feature(1)
val feature = TFRecord.floatVectorFeature(Array[Float](1, 2, 3, 4))
val features = TFRecord.makeFeatures(HashMap[String, Feature]  ("feature"->feature, "label"-> label))
val ex = TFRecord.makeExample(features)
val exSerialized = ex.toByteArray()
val length = LittleEndianEncoding.encodeLong(exSerialized.length)
val crcLength =  LittleEndianEncoding.encodeInt(CRC32.mask(CRC32.hash(length)))
val crcEx = LittleEndianEncoding.encodeInt(CRC32.mask(CRC32.hash(exSerialized)))

val out = new FileOutputStream(new File("test.tfrecords"))
out.write(length)
out.write(crcLength)
out.write(exSerialized)
out.write(crcEx)
out.close()


当我尝试使用TFRecordReader读取Tensorflow内部的文件时,出现以下错误:

W tensorflow/core/common_runtime/executor.cc:1076] 0x24cc430 Compute status: Data loss: corrupted record at 0


我怀疑CRC掩码计算不正确或java和c ++生成的文件之间的字节顺序不一样.


1> jrabary..：
我的实现的问题是CRC掩码的计算.这是修复我找到的:

def mask(crc: Int): Int ={
    ((crc >>> 15) | (crc << 17)) + kMaskDelta
}


关键是使用无符号移位按位运算符>>>而不是>>



    

    

    
        推荐阅读
        
            
                                
                    
                        程序员
                        Unix按列整数过滤
                    

                    
                                                
                        如何解决《Unix按列整数过滤》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何在iOS中更改cordova-camera-plugin语言？
                    

                    
                                                
                            
                        
                                                
                        如何解决《如何在iOS中更改cordova-camera-plugin语言？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在Angular JS Module中传递并获取DOM元素值
                    

                    
                                                
                        如何解决《在AngularJSModule中传递并获取DOM元素值》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        AWS IoT  - 通过.Net,REST和证书访问阴影
                    

                    
                                                
                        如何解决《AWSIoT-通过.Net,REST和证书访问阴影》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        相互测试所有值,并从结果矩阵中形成组
                    

                    
                                                
                        如何解决《相互测试所有值,并从结果矩阵中形成组》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何将图书目录中的图书分配给各自的作者？
                    

                    
                                                
                        如何解决《如何将图书目录中的图书分配给各自的作者？》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何更新/升级Facebook API版本？
                    

                    
                                                
                        如何解决《如何更新/升级FacebookAPI版本？》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何通过在张量流中使用softmax-output层并行(在神经网络中)确定多个标签？
                    

                    
                                                
                        如何解决《如何通过在张量流中使用softmax-output层并行(在神经网络中)确定多个标签？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        无法删除Azure App Service计划
                    

                    
                                                
                            
                        
                                                
                        如何解决《无法删除AzureAppService计划》经验，为你挑选了3个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        我应该使用哪个记录器来获取Cloud Logging中的数据
                    

                    
                                                
                        如何解决《我应该使用哪个记录器来获取CloudLogging中的数据》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        从Kinect相机压缩RGB-D视频
                    

                    
                                                
                        如何解决《从Kinect相机压缩RGB-D视频》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        自Android 6 Marshmallow以来,javax.crypto.Cipher的工作方式不同
                    

                    
                                                
                        如何解决《自Android6Marshmallow以来,javax.crypto.Cipher的工作方式不同》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        启动未使用Xcode 7显示的图像
                    

                    
                                                
                            
                        
                                                
                        如何解决《启动未使用Xcode7显示的图像》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        app:stackFromEnd for RecyclerView无法在xml中运行？
                    

                    
                                                
                        如何解决《app:stackFromEndforRecyclerView无法在xml中运行？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何在Kibana中配置索引模式
                    

                    
                                                
                            
                        
                                                
                        如何解决《如何在Kibana中配置索引模式》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        名称中的React native Image变量不起作用
                    

                    
                                                
                        如何解决《名称中的ReactnativeImage变量不起作用》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        为什么使用dotenv库而不是解析ini文件？
                    

                    
                                                
                        如何解决《为什么使用dotenv库而不是解析ini文件？》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        打印免费monad
                    

                    
                                                
                        如何解决《打印免费monad》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        提取/读取React propTypes
                    

                    
                                                
                        如何解决《提取/读取ReactpropTypes》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        SBT  - 如何禁用特定任务的插件(例如"包")
                    

                    
                                                
                        如何解决《SBT-如何禁用特定任务的插件(例如"包")》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                

            
        
    

    
        吐了个 "CAO" !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
























    

    
        
            
            
                
                    
                
            

            
                mylvfamily            

            
                这个屌丝很懒，什么也没留下！            
            
            

                                
                    
                    关注作者
                            

        
    


    
        Tags | 热门标签
        
            
                                
                    actionscrip
                
                                
                    bash
                
                                
                    c#
                
                                
                    c++
                
                                
                    c语言
                
                                
                    erlang
                
                                
                    flutter
                
                                
                    go
                
                                
                    golang
                
                                
                    java
                
                                
                    javascript
                
                                
                    lua
                
                                
                    node.js
                
                                
                    perl
                
                                
                    php
                
                                
                    python
                
                                
                    scala
                
                                
                    typescript
                
                                
            
        
    


    
        RankList | 热门文章
        
            
                                
                    1Webpack dev服务器缓慢初始加载
                
                                
                    2在直接声明的HTML事件标记中获取事件对象
                
                                
                    3如何通过特殊字符串在javascript中拆分字符串
                
                                
                    4具有资源所有者密码凭证和JWT的Spring Security OAuth2客户端SSO
                
                                
                    5在LocalFolder中存储BitmapImage  -  UWP
                
                                
                    6错误:将已删除的函数'test :: test(const test&)C++与向量结合使用
                
                                
                    7使用Boost.Log的通道层次结构进行严重性和接收过滤
                
                                
                    8PropTypes使用动态键检查对象
                
                                
                    9如何删除Microsoft Azure存储中的租用blob
                
                                
                    10如何在Python中使用OpenCV Stitcher类？
                
                                
                    11当用户在wpf中悬停时,我如何突出显示行？
                
                                
                    12InnerHTML无法正常工作
                
                                
                    13从app.config文件中读取
                
                                
                    14将JSON反序列化为Object时出错
                
                                
                    15使用class.ind()从整数因子中溢出整数？
                
                                
                    16Angular 2  - 显示来自promise的异步对象数据
                
                                
                    17如何将bool列表折叠为整数列表
                
                                
                    18从嵌套组件中使用RouterLink
                
                                
                    19为什么AndroidAsync断开时间这么久？
                
                                
                    20如何干掉重复嵌套的HAML？