這兩年生成式ai爆發性增長并且重塑數字創作的工具生態。從文本生成、圖像視頻生成以及模型訓練,可以說無法離開ai,ai的介入讓創意生產變得前所未有的高效簡單,但同時也帶來了體驗上的困境,例如我們在使用自動化生成便利的同時,還能保持對創作過程的深層控制?比如在進行文生圖或者線稿轉3D的流程中,我們如果要控制某個部分的設計表現,需要利用多個方法才能完成,僅僅通過提示詞的修改并無法完成,這個矛盾在之前的SD等開源模型中非常明顯;
算法模型的開放讓設計達到了無限的可能,但更多設計師卻被迫在控制權和易用性之間做出了妥協,當重復一個流程無法生成滿意的圖象時,大多情況都是基于一個“不滿意”的圖像進行優化,我把這個理解為用戶心理上的妥協;
以節點式工作流工具ComfyUI為例,其通過可視化編程賦予用戶對Stable Diffusion生成流程的精細控制權,允許自由組合模型、調節參數、插入預處理模塊,成為專業創作者的首選工具。然而,這種高度自由的設計也帶來了顯著的認知負擔:錯綜復雜的節點連線、晦澀的參數術語、缺乏引導的開放式畫布,讓0基礎設計望而止步;數據顯示,超過67%的新用戶在首次使用ComfyUI時因“界面混亂”而放棄進一步探索(來源:ComfyUI社區調研)。這一現象揭示了生成式AI工具設計的核心矛盾——系統的靈活性與用戶的心智模型之間如何實現平衡?
用戶希望理解生成過程(分布控制、seed數值、CFG),避免黑箱帶來的不可預測性;
注:大多數AI工具(如Midjourney)像一臺自動售貨機——輸入提示詞,隨機吐出一張圖片。用戶無法知曉AI為何生成一只三頭六臂的貓,只能反復“抽卡”直到滿意。
通過精細化的控制實現獨特的風格,例如分布提示,基于大模型訓練出來的lora,不同lora模型融合后的混合模型,這些需要付出很大的學習成本和時間才能滿足,我個人理解ai給設計師通往目標的過程中搭建了不同的道路,但設計師如果在沒有導航的情況下要達到這個目標,中間可能會輾轉反側,也可能一條道路就能到達目的地;
自動化設計(如MJ和國內其他一鍵生圖的ai產品)可以降低設計的操作成本,但同時犧牲了可控性;
ComfyUI試圖打破黑箱,將AI拆解成可調節的“齒輪組”(如調節“采樣器”改變畫質、用“ControlNet”控制構圖)。但當用戶面對50多個參數和上百種節點時,反而因信息過載陷入“該調哪個參數?連錯節點會爆炸嗎?”的決策癱瘓。
comfyUI解決了MJ帶來的黑箱效應,但同時也帶來了物質上的門檻,設計師需要配備更高的配置或者使用第三方租用云電腦等才能運行,否則前者就會造成漫長的等待,后者則需要花費大量的財力,對于設計師而言反而是造成了時間上的負荷;
節點系統支持無限組合,但缺乏對用戶意圖的主動理解,如自動推薦節點;
參數暴露(如CFG Scale、Sampler)提供控制感,但引發“選擇過載”實際使用過程中,如果是普通玩家,無法短時間內通過這些參數來控制結果,核心還是在于認知門檻過高;
自由連接節點導致邏輯混亂(如錯誤連線無及時提示),增加調試成本。
我把ControlNet的“負面條件”打亂連接到“正面clip文本框”上,而采樣器的“負面條件”直接連接到“負面clip文本框”內,整個過程是不會出現任何報錯提示,但是當運行調試的時候就會運行失敗,提示ControlNet缺少負面條件,ControlNet(應用)缺少負面條件輸出等問題,眾所周知對于一些低配玩家,運行一次需要等很久,等到最后發現生產出來一個“報錯”!!!
當設計師想生成“一只穿宇航服的柴犬”,Midjourney可能輸出卡通風格或超現實照片,設計師只能通過追加提示詞(如“3D、黏土”)逼近目標,不停的抽卡;
(實在不想用mj了,下面的圖本地跑的,大概的意思一樣就是不停的抽卡抽卡)
在ComfyUI中,設計師可以強制指定:用FLUX模型生成基礎圖像,然后加載相關LoRA模型,在添加個視覺風格遷移的模型,添加宇航服,在添加個視覺風格模型,連接OpenPose節點調整柴犬姿勢,最后用放大模型,放大畫質;但我就想說:我只是想畫只貓,為什么要弄這么復雜。。。
ComfyUI的“高可控性”吸引專家設計師,但普通設計師或者0基礎設計師因認知負荷大多放棄使用。Midjourney通過“限制控制權”降低門檻,但設計師可能因無法干預細節感到焦慮。
為什么說這個呢,因為comfyui目前是趨勢ai,核心的生成邏輯包括實際應用都已經大于mj了,所以接下來的內容也是圍繞comfyui拆解的;
ComfyUI將所有參數(如LoRA權重、VAE選擇、采樣器、各種模型加載器)暴露給用戶,導致界面信息過載。
設計師需要同時調整“提示詞權重”“采樣器類型”“ControlNet強度”時,易混淆參數優先級,對于這個結果的影響,是采樣器類型問題呢還是ControlNet的數值不對呢,最后我猜大多人過程都是一個個試一遍,最后哪個效果好用哪個;
動態參數分組,根據生成的目標隱藏無關的參數,比如當輸入完成“提示詞”后,可以識別出輸入的提示詞類型,生成一個3d風格海報,那么基于這個提示詞,就可以提前預判出跟3d風格海報相關的參數都可以隱藏;參數依賴的可視化,通過邏輯線的方式標記他們之間的關系,例如CFG與采樣步數,通常來講CFG數值越高生成的圖越接近提示詞,但是圖像質量會下降,采樣步數越高生成的圖質量就越高,那么問題來了,當設計師調整CFG數值時,是不是可以標記或者提示設計師采樣步數的變化,以此來達到最優解;
節點可任意連接,但缺乏邏輯校驗目前comfyUI中只是告訴設計師如果兩個節點本身沒有前后關系的情況下不可以連接(沒有節點對應的收入口)另一種情況是兩個節點在一個工作流中都能起到作用,但是節點是多功能化的,連線的時候可以正常連接,最后運行的時候就會出現某某節點不匹配。
設計師錯誤連接ControlNet預處理器與VAE節點,導致生成失敗且無報錯提示。
實時邏輯校驗,在設計師連線時提示沖突(如“該節點僅接受潛空間輸入”)。
工作流自檢模式,一鍵檢測缺失節點(如缺少“提示詞編碼器”時提醒用戶)。
生成式AI工具的設計矛盾,本質上是人類認知模式與技術邏輯的沖突。以ComfyUI為例,其設計暴露了以下深層問題:
ComfyUI將AI生成過程拆解為節點,試圖通過“透明化”提升用戶信任,但普通人并不需要(也無法理解)技術細節;不知道你們有沒有,當我第一次看到“VAE解碼器”“潛在空間降噪”等節點時,大腦會觸發“意義建構焦慮”——“這些詞和我想要的圖片有什么關系?”
ComfyUI看似賦予用戶完全控制權,但多數參數的實際影響難以預測(如CFG值從7到8可能導致畫風突變)這類似于讓設計師駕駛一輛方向盤與輪胎無機械連接的汽車,轉動方向盤時,輪胎可能隨機偏轉。設計師誤以為“控制節點=控制結果”,實則是“在黑暗中調整未知旋鈕”;
開源社區的理想:“人人可 Hack”的民主化工具;現實問題是開發者設計節點時默認用戶理解SD原理(如Latent Space、擴散模型、euler_ancestralcai、dpmpp_2m),但普通用戶只關心“如何讓圖片更逼真”;這種斷層導致ComfyUI的文檔充滿技術術語,而非用戶目標導向的指南(如“修復模糊人臉”對應哪些節點組合),這也是技術工具與用戶體驗的博弈;
專家模式:保留完整的節點和參數,讓這類設計師自由編輯;
自動化操作:根據提示詞推薦采樣器、cfg數值等組合,例如提示詞是自然語言,那就匹配關于flux模型的專屬采樣器;
目標推薦:輸入“生成賽博朋克城市”后,自動推薦“SDXL模型+ControlNet邊緣檢測+色調調整節點”;行為預測:分析歷史工作流,推薦高頻使用的節點組合(如“LoRA模型+分層提示詞”);
參數與結果的實時性:實時顯示調整CFG值對圖像細節、對比度的量化影響。節點的貢獻度分析:生成后標記關鍵節點(如“ControlNet貢獻度72%”),幫助用戶理解流程。
ComfyUI揭示了生成式AI時代的核心矛盾——技術的能力越強大,人類越需要承認自身認知的局限性。工具設計不應追求“上帝模式”,而需尋找“剛剛好的控制權”給用戶“扳手”而非“零件庫”:提供高層級調節維度(如“畫面精細度”“風格偏離度”),隱藏底層技術參數,并不是每個設計師都是工程師的角色;大多設計師的角色只是維修工;擁抱“不完美的人性”:允許用戶保留“我不知道為什么要調這個,但調了就有用”的玄學操作,而非強迫所有人成為AI工程師。重新定義“控制”:從“絕對掌控流程”轉向“有效影響結果”,讓AI的不可預測性成為創意催化劑而非焦慮來源。
作者:愛吃貓的魚___
鏈接:https://www.zcool.com.cn/article/ZMTY1MDQ2OA==.html
來源:站酷
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。