設計達人

愛設計，愛分享。

AI繪畫教程 ? AI墊圖神器：IP-Adapter（通過墊圖還原你心中想要的圖片）

AI墊圖神器：IP-Adapter（通過墊圖還原你心中想要的圖片）

1月 15, 2024 發表于: AI繪畫教程. 評論

Sponsor

用AI工具出圖時總是達不到滿意的效果？實用墊圖效果更好些，但是墊圖也不會完全還原你心中想要的圖片，京東設計團隊給大家分享了一個新一代“墊圖”神器——IP-Adapter。來看下它有多好用吧！

AI墊圖神器：IP-Adapter（通過墊圖還原你心中想要的圖片）

▍都是“墊圖”，誰能還原你心中的圖

“墊圖”這個概念大家肯定都不陌生，此前當無法準確用prompt描述心中那副圖時，最簡單的辦法就是找一張近似的，然后img2img流程啟動，一切搞定。

可img2img簡單的同時，也有它繞不過去的局限性，比如對prompt的還原度不足、生成畫面多樣性弱，特別是當需要加入controlnet來進行多層控制時，參考圖、模型、controlnet的搭配就需要精心挑選，不然出圖效果常常讓人當場裂開…

但現在，我們有了新的“墊圖”神器——IP-Adapter，在解讀它之前，先來直觀的感受一下它的效果。

效果可以說相當炸，那IP-Adapter就是終極答案了么？它的泛化性如何？兼容性是否足夠？對prompt支持怎么樣？當真的要接入現實工作中它還有什么拓展的能力呢？讓我們一一來看。

▍IP-Adapter的核心優勢，只畫你關心的事

IP-Adapter和img2img雖然在操作上都是“墊圖”，但它們的底層實現可以說是毫無關系。

AI墊圖神器：IP-Adapter（通過墊圖還原你心中想要的圖片）

用個不嚴謹但好理解的例子，“IP-Adapter”和“img2img”就是兩位畫師，現在給出prompt要求它倆畫一個男人，在不提供參考圖的情況下，它們大概都會畫成圖1的模樣，但是當我們加上參考圖2的時候，兩者的區別就顯現了。

img2img相當于直接蓋在參考圖上開始臨摹，雖然知道要畫個男人，但會在老虎的基礎上去修改，始終會很別扭，中間不免出現老虎和男人混淆的情況，畫出一些強行混合不知所謂的圖來。因為在這個流程中，參考圖更為重要，一切是在它基礎上畫出來的，結果也更傾向于參考圖。

IP-Adapter則不是臨摹，而是真正的自己去畫，它始終記得prompt知道自己要畫個男人，中間更像請來了徐悲鴻這樣的藝術大師，將怎么把老虎和人的特點融為一體，講解得偏僻入里，所以過程中一直在給“男人”加上“老虎”的元素，比如金黃的瞳仁、王字型的抬頭紋、虎紋的須發等等。此時，prompt更為重要，因為這才是它的始終目標。

當然這些都是在一定的參數范圍內，超過了閾值，那必然是要走極端的，照著參考圖去copy了。但即便這樣也可以看到img2img只是1:1的復制，而IP-Adapter有更多prompt的影子。

▍把簡單的“墊圖”，拓展得大有前途

在理解IP-Adapter的邏輯之后，會發現它帶來的改變可不只是“墊圖”，這里先展示一下它在我們工作中的實例，然后再和大家一步步的去拆解它。

AI墊圖神器：IP-Adapter（通過墊圖還原你心中想要的圖片）

以上這些效果實現很簡單，只需要添加兩層controlnet，一層用來提供IP-Adapter，一層利用canny用來對需要添加的商品進行繪制、固化即可。

如果只是在webui中應用，那到這里其實已經ok了。但這次我們要更進一步，利用新工具，去實現更有創造力的能力。

以下重點想分享的更多是工程搭建的能力和效果（具體的方法，我們會放到以后詳細的講解）：

① 一張圖就是一個lora，大大降低了訓練的成本

② 多參考圖接入，提供更豐富的生成結果

③ 利用對prompt的強注意力，提供prompt matrix豐富結果

④ 基于comfyui的工作流部署，實現多步驟自動化生成

以往要想實現一個具體的設計風格，需要針對性的訓練lora，背后涉及訓練素材的搜集、打標、模型訓練、效果檢驗等多個環節，通常要花一兩天，并且結果還存在很強的不確定性。

但現在，通過IP-Adapter這一個步驟，在幾分鐘內就直觀的看到結果，大大節省了時間，敏捷程度簡直天壤之別。

▍當我們擁有這些特征，幾乎就得到一個“即時lora”，而需要付出的成本只是去找幾張符合預期的參考圖。

同時IP-Adapter還能一次讀取多張參考圖，讓生成的結果擁有更豐富的多樣性和隨機性，這是在img2img流程中無法實現的，也是兩者之間區別最大的地方。

此刻，讓我們把思路再打開一些，因為IP-Adapter對prompt的強注意力，prompt中的信息能更直觀的反應在結果中。于是我們可以在繼承img風格的同時，通過替換prompt里面的關鍵詞，指向不同的結果，形成prompt的組合矩陣，更進一步的拓展生成結果的多樣性。

AI墊圖神器：IP-Adapter（通過墊圖還原你心中想要的圖片）

更進一步，再加入不同的controlnet和批量素材讀取，來實現對生成結果的可控引導，以及利用批量讀取能力，來提供更加豐富的模板。一套”0成本即時lora + controlnet可控生成 + prompt matrix多樣生成“的自動化流程就搭建完成了。

這個流程我們已經用在項目中，至于效果，大家的反饋概括為一句話就是——一鍵三連。

上面這張圖就是上述流程部署在實際工作中的樣子，載體是comfyui，它和webui都是基于stable diffusion能力，但和webui的網頁化界面不同，它將SD的能力分解成不同的節點，通過節點關聯搭建來實現各種功能。所以更加開放、自由、多源，并且可以實現流程的自動化，極大的提升了實際應用中的效率。

AI墊圖神器：IP-Adapter（通過墊圖還原你心中想要的圖片）

到這里，關于IP-Adapter背后的原理和應用就整理完了，它有非常多的優點，但也非常需要結合實際的場景來應用，還是那個觀念，沒有最好的方法，只有適合的方法。

▍有點無聊，但也很有得聊

看過它的表現的效果之后，再從底層原理看看IP-Adapter到底有什么特別。

我們知道stable diffustion是擴散模型，它的核心作用機制就是對噪音的處理，prompt可以看做是我們的目標，通過不斷的去噪過程，向著目標越來越靠近，最終生成出預期的圖片。

IP-Adapter則是將圖片單獨提出作為一種提示特征，相比以往那種只是單純的把圖像特征和文本特征抽取后拼接在一起的方法，IP-Adapter通過帶有解耦交叉注意力的適配模塊，將文本特征的Cross-Attention 和圖像特征的Cross-Attention區分開來，在Unet的模塊中新增了一路Cross-Attention模塊，用于引入圖像特征。

相當于將原本SD中img和prompt拼合成一個向量的做法分開來, img和prompt都會單獨的組成向量, 然后交給unet層, 這樣img中的特征就可以更好的被保留下來，從而實現對圖像特征更顯性的繼承和保留。

本質上IP-Adapter就是txt2img的流程，流程中prompt還是最關鍵的，只是中間利用IP-Adapter強化了參考圖的提示作用。

作為對比，img2img是直接將參考圖傳入unet，去替換了原始的隨機噪音，這樣所有的生成結果都是建立在它的基礎上，于是有了前面人和老虎混雜的現象就比較好理解了。

來源：京東設計中心JDC（ID：JDCdesign）

↓ 今天干貨就分享到這里 ↓
掃碼，關注后發送「AI繪畫庫」可免費獲取SD+MJ繪畫入門資源！
▽

需要學習Midjourney的可以看這里
↓?↓

贊助商鏈接

贊助商鏈接

設計達人微信交流社區：shejidaren888

喜歡這篇文章嗎？歡迎分享到你的微博、QQ群，并關注我們的微博，謝謝支持。
版權：除非注明，本站文章均為原創文章，轉載請聯系我們授權，否則禁止轉載。

« 漸變氣泡效果設計教程，讓作品科技感十足

PS雙重曝光，創造引人注目的視覺效果教程 »

{ 發表評論 }

↑

``

一级在线观看视频免费播放,一级在线看片免费,一级在线毛片毛片,一级在线网站免费看,一级真人a做片性视频直播