港大阿里「视觉AI任意门」,一键向场景中无缝传送物体

OKX欧易app

OKX欧易app

欧易交易所app是全球排名第一的虚拟货币交易所,注册领取6万元盲盒礼包!

APP下载   官网注册

来源:量子位

点两下鼠标,就能把物体无缝「传送」到照片场景中,光线角度和透视也能自动适应。

阿里和港大的这个AI版「任意门」,实现了零样本的图像嵌入。

有了它,网购衣服也可以直接看上身效果了。 港大阿里「视觉AI任意门」,一键向场景中无缝传送物体

因为功能和任意门十分相似,所以研发团队给它起的名字就叫AnyDoor。

AnyDoor一次能够传送多个物体。 港大阿里「视觉AI任意门」,一键向场景中无缝传送物体

不仅如此,它还能移动图像里的已有物品。 港大阿里「视觉AI任意门」,一键向场景中无缝传送物体

有网友看了之后赞叹到,或许接下来就会进化到(把物体传入到)视频了。 港大阿里「视觉AI任意门」,一键向场景中无缝传送物体


零样本生成逼真效果


相对于已有的类似模型,AnyDoor具有零样本操作能力,无需针对具体物品调整模型。 港大阿里「视觉AI任意门」,一键向场景中无缝传送物体

除了这些需要进行参数调节的模型之外,AnyDoor相对于其他Reference类模型也更为准确。

实际上,其他的Reference类模型只能做到保持语义一致性。

通俗地说,如果要传送的物体是一只猫,其他模型只能保证结果中也有一只猫,但相似度无法保证。 港大阿里「视觉AI任意门」,一键向场景中无缝传送物体

我们不妨把AnyDoor的效果放大看看,是不是看不出什么破绽? 港大阿里「视觉AI任意门」,一键向场景中无缝传送物体 港大阿里「视觉AI任意门」,一键向场景中无缝传送物体

用户评价的结果也证实,AnyDoor在质量和准确度方面表现均优于现有模型(满分4分)。

而对于已有图像中物体的移动、换位,甚至改变姿态,AnyDoor也能出色完成。 港大阿里「视觉AI任意门」,一键向场景中无缝传送物体

那么,AnyDoor是如何实现这些功能的呢?


工作原理


港大阿里「视觉AI任意门」,一键向场景中无缝传送物体

要想实现物体的传送,首先就要对其进行提取。

不过在将包含目标物体的图像送入提取器之前,AnyDoor首先会对其进行背景消除。

然后,AnyDoor会进行自监督式的物体提取并转换成token。

这一步使用的编码器是以目前最好的自监督模型DINO-V2为基础设计的。

为了适应角度和光线的变化,除了提取物品的整体特征,还需要额外提取细节信息。

这一步中,为了避免过度约束,团队设计了一种用高频图表示特征信息的方式。 港大阿里「视觉AI任意门」,一键向场景中无缝传送物体

将目标图像与Sobel算子等高通滤波器进行卷积,可以得到含高频详情的图像。

同时,AnyDoor利用Hadamard对图像中的RGB色彩信息进行提取。

结合这些信息和过滤边缘信息的遮罩,得到了只含高频细节的HF-Map。 港大阿里「视觉AI任意门」,一键向场景中无缝传送物体

最后一步就是将这些信息进行注入。

利用获取到的token,AnyDoor通过文生图模型对图像进行合成。

具体来说,AnyDoor使用的是带有ControlNet的Stable Diffusion。

AnyDoor的工作流程大致就是这样。而在训练方面,也有一些特殊的策略。 港大阿里「视觉AI任意门」,一键向场景中无缝传送物体

AnyDoor使用的训练数据集

尽管AnyDoor针对的是静态图像,但有一部分用于训练的数据是从视频当中提取出来的。 港大阿里「视觉AI任意门」,一键向场景中无缝传送物体

对于同一物体,视频当中可以提取出包含不同背景的图像。

将物体与背景分离后标注配对,就形成了AnyDoor的训练数据。

不过虽然视频数据有利于学习,但还存在质量问题需要解决。

于是团队设计了自适应时间步采样策略,在不同时刻分别采集变化和细节信息。

通过消融实验结果可以看出,随着这些策略的加入,CLIP和DINO评分均逐渐升高。 港大阿里「视觉AI任意门」,一键向场景中无缝传送物体


团队简介


论文的第一作者是香港大学博士生陈汐(Xi Chen),他曾经是阿里巴巴集团算法工程师。

陈汐的导师Hengshuang Zhao是本文的通讯作者,研究领域包括机器视觉、机器学习等。

此外,阿里方面还有来自达摩院、菜鸟集团的研究人员也参与了这一项目。

论文地址:
https://arxiv.org/abs/2307.09481

本站所有软件信息均由用户上传发布,版权归原著所有。如有侵权/违规内容,敬请来信告知邮箱:764327034@qq.com,我们将及时撤销! 转载请注明出处:https://czxurui.com/zx/26798.html

打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023年07月23日
下一篇 2023年07月23日

相关推荐

  • 皱蹙的意思及拼音读音,常见近义词有哪些

    皱蹙是一个词汇,用来形容人的面部表情或者物体的外观。它通常表示一种紧张、不满或者担忧的情绪。那么,皱蹙的拼音应该是“zhòucù”,读作“周(zhōu)存(cù)”,其中“周”是第一声,“存”是第四声。皱蹙的意思是用来形容人的面部表情或物体

    2023-09-04 20:02:36
    104 0
  • 牛顿定律对现代物理学的深远影响

    牛顿定律是17世纪由英国数学家和物理学家艾萨克·牛顿提出的经典力学基础之一。它描述了物体在受到外力作用时产生的运动状态,被称为牛顿运动定律。牛顿定律包括三个基本原理,分别是惯性定律、动力学定律和作用与反作用定律。惯性定律指出,如果物体不受到

    2023-09-04 11:00:57
    74 0
  • 牛顿定律与现代物理学的影响

    牛顿定律是17世纪由英国数学家和物理学家艾萨克·牛顿提出的经典力学基础之一。它描述了物体在受到外力作用时产生的运动状态,被称为牛顿运动定律。牛顿定律包括三个基本原理,分别是惯性定律、动力学定律和作用与反作用定律。惯性定律指出,如果物体不受到

    2023-08-17 03:00:22
    75 0
  • 为什么有些东西无法被放大镜放大

    近年来,科技的迅猛发展使得我们的生活变得更加便利和丰富。放大镜在我们的日常生活中也扮演着重要的角色。但是,我们是否曾经想过,放大镜到底可以放大什么,又为什么一些东西无法通过放大镜放大呢?一、放大镜的工作原理放大镜是一种通过透镜的聚焦原理来放

    2023-08-02 06:01:58
    73 0
  • 宇宙之大,难以想象

    我想您问的是不是体积?要知道体积,那么必须得知道一个半径或直径。整个宇宙的大小可能为无限大,但目前未有定论。不过有个值是可以确定的,那就是人类目前可观测到以地球为中心的直径大蚂蚁S19约为930亿光年的宇宙范围。这一问题会涉及到可观测宇宙、

    2023-07-08 15:00:51
    60 0

发表回复

8206
验证码

评论列表(0条)

    暂无评论

ok交易所
已有100万用户加入ok交易所

立即下载