栏目导航
豹子融信用卡
豹子融工薪贷
豹子融抵押贷

JPEG后进:全新图片格局压缩降生:几乎无人工踪

浏览次数:时间: 2019-05-02

  下图为三种比特率下的图像压缩。从上到下别离是JPEG,论文中的方式,JPEG 2000,从左到左,比特率一步步增大。

  评论:这是我目前为止读过的利用深度神经收集进行图像压缩的最无力的论文。这篇文章写得很是好,客不雅评估中的rate-distortion理论很是好的契合了这个架构。该文章将成果于一个合理的基准进行对比(JPEG 2000,先前的文章仅仅取JPEG进行对比)。我但愿这篇文章可以或许有更深远的影响。

  数据压缩是一种被充实研究的根本工程问题,凡是是为具有最小熵的给定离散数据集设想编码。处理方案很大程度上依赖于数据概率布局的学问,因而问题取概率源建模亲近相关。

  下面是上图图像亮度分量的rate-distortion曲线,左侧是质量,由多标准布局类似性怀抱(MS-SSIM)。左侧是峰值信噪比。

  这些变换是正在卷积线性滤波器和非线性激活函数的三个持续阶段中建立的。通过一组测试图像,该方式的表示凡是比尺度JPEG和JPEG 2000压缩方式有更好的rate-distortion机能。更主要的是,正在所有比特率的所有图像中,该方式都实现了显著的视觉上质量的提拔,这点也被客不雅的质量评测方式MS-SSIM证明。

  评论:这个写得很好的文章供给了一种端到端进修的方式进行图像压缩。通过优化rate-distortion机能,该方式可以或许通过天然图像数据集上的优化实现高效的图像压缩。

  论文中,研究人员将他们的方式取两个尺度方式JPEG和JPEG 2000进行对比。获得成果如下:

  正在ICLR 2017会议上,来自纽约大学的Johannes Balle 等研究者提出了一种端到端优化的图像压缩方式,并颁发了论文:《End-to-End Optimized Image Compression》。这种方式包含了三个过程,别离是:非线性阐发变换,平均量化器,以及非线性合成变换。

  评论:这是一篇很好的文章,它展现了一种端到端锻炼的图像压缩息争压系统,比拟于目前的图像压缩算法(例如JPEG-2000)实现了更好的压缩比和质量之间的衡量。除了展现了深度进修正在新使用下的效率,该论文的一个环节性贡献是一种差分形式的“rate”函数,做者展现了它能够被用来无效的锻炼分歧的rate-distortion衡量。我但愿这种方式不只仅使用正在图像压缩方面阐扬影响,一些其他的差分近似方式可能城市从中受益。

  评论:本文将rate-distortion优化的方式拓展到深度编码器息争码器,并从简单的熵编码方式拓展到自顺应熵编码。此外,本文还会商了该方式和变分从动编码器之间的关系。

  研究人员基于非线性变换开辟了一种端到端优化图片压缩的架构(如下图所示)。这是一种通用的非线性变换编码架构。一个图像向量x,通过一个参数化的阐发变换y=ga(x;),映照到编码空间(code space)中。这个暗示被量化,发生一个离散值的向量q,接下来q被压缩。而沉建压缩图像则取之相反。

  雷锋网按:数据压缩是一种根本工程问题,正在数据存储和无限容量信道传输中有主要的使用。图像做为一种消息载体,数据量庞大,因而研究者们对图像压缩的研究从未遏制过。

  因为rete-distortion优化的方式曾经被出书过,此次递交的文章的新鲜性并不常高。正在某些方面上,这篇文章以至有退步,因为晚期的工做是对perceptual metric进行优化,而这里利用的是MSE。然而,成果很较着的优于JPEG 2000,我并不晓得目前有哪种其他的进修编码器可以或许达到这种条理的机能。这篇文章写得很是好。

  比拟之下,JPEG和JPEG 2000有较着的人工踪迹,这也是所性变换编码方式的问题:因为局部特征(边缘,轮廓,纹理元素等)是由局部线性基函数的组合暗示的,变换系数的标量量化导致这些组合不均衡,导致正在视觉上反映出潜正在的基函数,即图像混叠和振铃现象。

  值得留意的是,该论文中的方式正在所有测试图像和所有比特率上,都有可察觉的劣势。上图中显示了从高到低比特率的过程。跟着比特率的降低,JPEG和JPEG 2000通过粗化线性基函数系数的精度来降低其对原始图像的近似,因而出这些基函数的视觉上的外不雅。另一方面,论文中的方式逐步简化了轮廓和其他图像特征,无效躲藏了暗示底层的量化。

  对于此中的阐发变换,研究人员利用了基于级联的线性卷积层和非线性层的更矫捷的变换,来优化均方误差(mean squared error,MSE)。值得留意的是,研究者利用了generalized divisive normalization(GND)结合非线性层,这对高斯图像密度是很无效的,这是由生物视觉系统神经元所的。

  论文中的方式相较于未压缩的原图细节较少,细节纹理和图案大部门被消弭了,可是保留了轮廓的滑润性以及边缘的锐度,使得图像具有天然的感不雅。

  但愿能插手该方式正在Lena/Barbare/Baboon图像上的成果,而且取更多的结果最好的典范方式进行对比。可以或许清晰地表示出神经收集方式取先前最好处所式之间的分歧是至关主要的。从目前提交版本的论文看来,我仍然不晓得这两个范围的方式哪个更好。

  评价:这是我们接管的论文中最好的两篇之一,我保举它做为oral presentation。审稿人对这个从题相当的隆重,并进行了深切的领会。

  同时优化压缩率和失实是坚苦的。正在没有额外的束缚的环境下,正在高维空间进行最优量化是很棘手的。因为这个缘由,目前大大都的图像压缩方式将数据向量线性的变换成恰当的持续值暗示,量化各个元素,然后利用无损熵编码对所获得的离散暗示进行编码。,因为变换起到的至关主要的感化,这种方式被称为变换编码(transform coding)例如JPEG正在分块像素上利用了离散余弦变换,JPEG 2000利用了多种标准的正交小波分化。

  然而,因为所有的现实编码必然具有无限的熵,持续值的数据(例如图像像素强度的向量)必需被量化为离散的值,这就会导致误差。正在压缩问题下,必需衡量两种丧失:离散化暗示的熵(rate,压缩率)和量化导致的误差(distortion,失实)。分歧的压缩使用场景,好比数据存储或者无限容量信道传输,需要分歧的压缩率取失实的衡量。

  相关链接: