原標題:一鍵換裝神器爆火,老黃換上抱抱臉T恤,CEO本人:我被替代了,和他爭CEO職位爭不過
笑不活,最新虛擬試穿神器被網友們玩壞了。
黃院士、CBA投注馬斯克、奧特曼、史密斯等一眾大佬衣服集體被扒。
前有老黃卸下皮衣套上糖果包裝袋:
后有奧特曼大秀花臂穿CUCCI:
再有老馬變成了蛛蛛俠:
好萊塢巨星史密斯也風格大變:
但說回研究本身,確實正兒八經的研究。
名為IDM–VTON,由來自韓國科學技術院和OMNIOUS.AI公司的研究團隊基于擴散模型打造。
目前官方放出了demo,大伙兒可以試玩,推理代碼已開源。
除了開頭所展示的,抱抱臉研究員也玩的不亦樂乎,給老黃換上了專屬戰袍。其CEO連忙轉發打趣:
我被替代了,沒法和他爭CEO。
看熱鬧的網友也是感慨,經過這么多年,終于不用再擔心自己“手殘”了(AI幫你搞定)。
來玩啊~
我們也趕緊上手體驗了一把。demo整個頁面是這樣嬸兒的:
操作起來也是非常簡單。
首先上傳人物圖,可以手動或者自動選擇要修改的區域。然后,上傳要換的衣服。
直接點擊Try-on,會自動生成掩模圖和換裝后的圖:
上面這張自動生成的掩模把手也選進去了,所以最后生成的左手效果不好。
我們手動選取涂抹一下,同時人和衣服全部都用我們自己的圖。
這次效果大伙兒覺得如何?
再來展示一波網友的試玩成品圖。
DeepMind聯合創始人蘇萊曼穿上了微笑面具修格斯聯名款T恤:
甚至不少網友真想要這件衣服。
奧特曼再次被網友當成模特:
當然也有翻車的時候,比如馬斯克穿的就是山寨CUCCI。
看完效果后,接著來看IDM–VTON在技術上是如何實現的。
基于擴散模型
技術方面,IDM–VTON基于擴散模型,通過設計精細的注意力模塊來提高服裝圖像的一致性,并生成真實的虛擬試穿圖像。
模型架構大概包含三部分:
TryonNet:主UNet,處理人物圖像。
IP-Adapter:圖像提示適配器,編碼服裝圖像的高級語義。
GarmentNet:并行UNet,提取服裝的低級特征。
在為UNet提供輸入時,研究人員將人物圖片的含噪聲潛在特征、分割掩模、帶掩蔽的圖片和Densepose數據整合在一起。
他們還會為服裝添加詳細描述,例如[V]表示“短袖圓領T恤”。這個描述隨后用作GarmentNet(例如,“一張[V]的照片”)和TryonNet(例如,“模特正在穿[V]”)的輸入提示。
TryonNet和GarmentNet產生的中間特征進行了合并,隨后傳遞至自我注意力層。研究人員只使用了來自TryonNet的輸出的前半部分。這些輸出與文本編碼器和IP-Adapter的特征一起,通過交叉注意力層進行融合。
最終,研究人員對TryonNet和IP-Adapter模塊進行了精細調整,并鎖定了模型的其它部分。
實驗階段,他們使用VITON-HD數據集訓練模型,并在VITON-HD、DressCode和內部收集的In-the-Wild數據集上進行評估。
IDM–VTON在定性和定量上都優于先前的方法。
IDM-VTON可以生成真實的圖像并保留服裝的細粒度細節。
更多細節,感興趣的家人們可以查看原論文。
1.
2.
3.
4.
5.