DragGAN 是由麻省理工、谷歌AR/VR、 宾夕法尼亚大学等多家机构共同研究开发的一种新的 AI 工具,里面有华人工程师的身影,它允许用户通过几个点击和拖动来真实地修改照片。日前,DragGAN的源代码已经公开,正是这种开放的精神,推动着 AI 技术不断地进步。
源码地址如下:
https://github.com/XingangPan/DragGAN
通过 DragGAN,任何人都可以通过精确控制像素的去向来变形图像,从而操纵动物、汽车、人类、风景等不同类别的姿势、形状、表情和布局。由于这些操作是在GAN的学习生成图像流形上执行的,因此即使对于具有挑战性的场景,例如幻觉遮挡的内容和始终遵循对象刚性的变形形状,它们也倾向于产生逼真的输出。定性和定量比较都证明了DragGAN在图像处理和点跟踪任务中优于以前的方法。
可能你还没有直观的感受,来看下面几组动图:
相比PS复杂的指令组合,DragGAN 就显得简单多了,当然两者主攻的方向并不太一致,并不是非此即彼的关系,也会是一个经典的组合,DragGAN 预先处理后,再由 PS 细化处理。
DragGAN 目前尚未有正式可用的产品推出,源码已经公开,相信离正式公开使用应该不远。
DragGAN 是个组合词,Drag,拖动;GAN,AI 图像处理技术,全称是 Generative Adversarial Networks,看名字很深奥,下面把GAN拿出来单独说一说。
GAN是什么
GAN全称是生成对抗网络,是AI领域一个相当专业的领域,它由一个生成器和一个判别器组成。
简单理解一下:生成器就像假钞制造者,辨别器的任务是识别假钞,前者想要尽力蒙混过关,而后者则是努力识别出是真钞还是假钞。两者左右博弈相互对抗,最后达到一种平衡:生成器能够以假乱真,而判别器以1/2概率来瞎猜。