來源:量子位Stable Diffusion最強版本,來了! 剛剛,**SDXL 1.0正式發布**,可免費在線試玩。效果上,無論是以假亂真的寫實大片: 超現實的熊貓喝啤酒: 還是賽博朋克漫畫,都非常nice~ Stability AI表示,SDXL 1.0能生成**更加鮮明準確的色彩**,在對比度、光線和陰影方面做了增強,可生成**100萬像素**的圖像(1024×1024)。而且還支持在網頁上直接對生成圖像進行後期編輯。(有一股和Midjourney、Firefly打擂台的味兒了) 網友們已經按捺不住上手試玩了~和基礎Stable Diffusion相比,SDXL 1.0生成結果更加準確和逼真。 而且官方表示,提示詞也能比之前更簡單了。這是因為SDXL 1.0的基礎模型參數量達到了**35億**,理解能力更強。對比基礎版Stable Diffusion,參數量只有10億左右。由此,SDXL 1.0也成為當前**最大規模**的開放圖像模型之一。官方甚至直接說這就是世界上最好的開放圖像模型。 話不多說,我們來上手體驗了~## **把馬斯克印在青花瓷上**SDXL 1.0在操作上很便捷,直接輸入即可,還能從下面勾選風格、尺寸參數等。  一次生成默認是出4張圖,如果不滿意還可以點下方“加號”讓它繼續畫。 官方介紹說,現在讓SDXL 1.0生成大作,無需再加入“傑作”這種提示詞了。讓它生成一幅日漫風格的圖像,畫風非常貼合,而且在光影的處理上也更加自然了。> 1990 年代動漫低分辨率屏幕抓取夫婦晚上在街上走開 或者是一幅風景照?也能以假亂真了。 甚至是讓馬斯克站在中式庭院裡,抬頭斜望著天空……> 埃隆·馬斯克在中國古代宮殿 或者是把蘋果收購了?在「WWDC」上,他舉著全新款iPhone向人們展示,身邊還圍滿了記者和粉絲(doge)。> 埃隆·馬斯克 (Elon Musk) 在 WWDC 上發布新款 iPhone 除了這些老馬的洋蔥新聞之外,繪畫風格的作品效果也不錯。左邊的是齊白石水墨風格,而右邊是一幅漫畫。> 左:埃隆·馬斯克發表演講,水墨畫,齊白石風格> 右:埃隆·馬斯克漫畫 除了繪畫,也可以把老馬放進我們的元青花。> 元代青花瓷造型埃隆·馬斯克 上面展示的這些「老馬的故事」,用的都比較簡單。但從效果並沒有因為提示詞簡單而拉胯,這也與官方的說法相印證。 不過我們還是想看看,如果用更加複雜精緻的,會是什麼樣子?我們找到了Midjourney創作的一張老馬在蘇聯擔任汽修工人的珍貴照片,重新餵給MJ,讓它生成個。 MJ生成了下面這樣的,我們就用它來測試SDXL:> Elon Musk(這裡MJ生成的是一個男人)站在工作室裡,工業機械美學風格,德國製造聯盟,統一的舞台圖像,蘇聯,淺靛藍和深青銅色,新美國彩色攝影,詳細的面部特徵 風格完全符合我們的預期,細節也還不錯。再來一個複雜的圖作為收尾,同樣是MJ根據此前的作品生成後餵給SDXL。> 伊隆·馬斯克用筷子吃東西,彼得·庫爾森風格,交叉處理/處理,針孔攝影,香草修剪,詹姆斯·蒂索,跨先鋒,點測光左邊是SDXL的作品,右邊是MJ的原版,大家可以對比一下。 提示詞同樣支持中文,不過似乎會在給出結果中傾向於國風,準確性可能也會受到影響。比如輸入“一隻老虎在海邊”後,意外給出了一個國風妹子。 效果大家都已經看到了,那麼SDXL生成圖片的速度如何呢?對於免費用戶來說,時間主要花費在排隊上了,不過也不會等待太久。在5.5秒的時間內,排隊人數從160減少到了99。 除了生成圖像外,SDXL還提供了很多後期編輯功能。具體來說,包括去除背景、細節處理、畫幅擴增等等。 這些功能是SDXL所在的Clipdrop平台上已有的,而SDXL可以一鍵將生成的圖片傳入對應模塊。這裡我們選擇背景消除功能展示一下,可以看出邊緣的細節幾乎沒有什麼破綻。 目前,SDXL的免費使用額度還是比較高的,登錄後每個賬戶每天可生成400張(需要排隊)。月付的價格是9美元每月,年付則相當於7美元(約50元人民幣)每月,包含了1500張每天的SDXL額度,且無需排隊。 不過不同區域的價格似乎也有所區別,比如阿根廷的年付價格平攤到每月是742比索(約合19.4元人民幣或2.7美元)。 此外,由於付費版本實際上是Clipdrop平台的Pro訂閱,所以也包含了該平台的其他功能。除了Pro賬戶,還有API版本可供開發者使用(可以訪問Stability AI、Amazon等平台)。## **開放圖像模型中的“最大杯”**在最新博客中,Stability AI介紹了SDXL 1.0的更多技術細節。首先,模型在規模和架構上都有了新突破。它創新性地使用了一個基礎模型(base model)+一個細化模型(refiner model)。二者的參數規模分別為**35億**和**66億**。 這也使得SDXL 1.0成為目前**規模最大的開放圖像模型之一**。Stability AI創始人莫斯塔克(Emad Mostaque)表示,更大規模的參數量能讓模型理解更多概念,教會它更深層次的東西。同時在SDXL 0.9版本還進行了RLHF強化。這也是為什麼現在SDXL 1.0支持短提示詞,而且能分清紅場(the Red Square)和一個紅色的廣場(a Red Square)。 在具體合成過程中,第一步,基礎模型產生有噪聲的latent,然後由細化模型進行去噪。其中基礎模型也可以作為獨立模塊使用。這兩種模型結合能生成質量更好的圖像,且不需要消耗更多計算資源。官方介紹SDXL 1.0可以運行在8GB VRAM的消費級GPU上,或者是雲端。除此之外,SDXL 1.0在微調也有了提升,可以生成自定義LoRAs或者checkpoints。Stability AI團隊現在也正在構建新一代可用於特定任務的結構、風格和組合控件,其中T2I/ControlNet專門用於SDXL。不過目前這些功能還處於beta測試階段,後續可以關注官方更新。 總結來說,文生圖都是一個逐漸迭代的過程,SDXL 1.0的目標就是讓這個過程更加簡單。莫斯塔克表示,現在只需要5-10張圖片,就能快速微調模型。從用戶反饋中也能看到,相較於Stable Diffusion,SDXL 1.0更能讓大家滿意。 實際上,從今年4月以來,Stability AI就發布了SDXL最早的測試版。6月份開始進行內測,前段時間發布了0.9版本,當時就預告了會在7月發布一個開放版本,即最新的1.0版本。目前相關代碼權重已經發佈在GitHub上。而且Stability AI機器學習負責人表示,相較於SDXL 0.9,1.0版本降低了對算力的需求。感興趣的童鞋快去試玩吧~試玩入口:GitHub:參考鏈接:[1][2][3]
超大杯Stable Diffusion免費來襲! 「最強文生圖開放模型」,提示詞也更簡單
來源:量子位
Stable Diffusion最強版本,來了!
效果上,無論是以假亂真的寫實大片:
而且還支持在網頁上直接對生成圖像進行後期編輯。
(有一股和Midjourney、Firefly打擂台的味兒了)
和基礎Stable Diffusion相比,SDXL 1.0生成結果更加準確和逼真。
這是因為SDXL 1.0的基礎模型參數量達到了35億,理解能力更強。
對比基礎版Stable Diffusion,參數量只有10億左右。
由此,SDXL 1.0也成為當前最大規模的開放圖像模型之一。官方甚至直接說這就是世界上最好的開放圖像模型。
把馬斯克印在青花瓷上
SDXL 1.0在操作上很便捷,直接輸入即可,還能從下面勾選風格、尺寸參數等。
讓它生成一幅日漫風格的圖像,畫風非常貼合,而且在光影的處理上也更加自然了。
在「WWDC」上,他舉著全新款iPhone向人們展示,身邊還圍滿了記者和粉絲(doge)。
左邊的是齊白石水墨風格,而右邊是一幅漫畫。
但從效果並沒有因為提示詞簡單而拉胯,這也與官方的說法相印證。
我們找到了Midjourney創作的一張老馬在蘇聯擔任汽修工人的珍貴照片,重新餵給MJ,讓它生成個。
再來一個複雜的圖作為收尾,同樣是MJ根據此前的作品生成後餵給SDXL。
左邊是SDXL的作品,右邊是MJ的原版,大家可以對比一下。
比如輸入“一隻老虎在海邊”後,意外給出了一個國風妹子。
對於免費用戶來說,時間主要花費在排隊上了,不過也不會等待太久。
在5.5秒的時間內,排隊人數從160減少到了99。
具體來說,包括去除背景、細節處理、畫幅擴增等等。
這裡我們選擇背景消除功能展示一下,可以看出邊緣的細節幾乎沒有什麼破綻。
月付的價格是9美元每月,年付則相當於7美元(約50元人民幣)每月,包含了1500張每天的SDXL額度,且無需排隊。
除了Pro賬戶,還有API版本可供開發者使用(可以訪問Stability AI、Amazon等平台)。
開放圖像模型中的“最大杯”
在最新博客中,Stability AI介紹了SDXL 1.0的更多技術細節。
首先,模型在規模和架構上都有了新突破。
它創新性地使用了一個基礎模型(base model)+一個細化模型(refiner model)。
二者的參數規模分別為35億和66億。
Stability AI創始人莫斯塔克(Emad Mostaque)表示,更大規模的參數量能讓模型理解更多概念,教會它更深層次的東西。
同時在SDXL 0.9版本還進行了RLHF強化。
這也是為什麼現在SDXL 1.0支持短提示詞,而且能分清紅場(the Red Square)和一個紅色的廣場(a Red Square)。
其中基礎模型也可以作為獨立模塊使用。
這兩種模型結合能生成質量更好的圖像,且不需要消耗更多計算資源。
官方介紹SDXL 1.0可以運行在8GB VRAM的消費級GPU上,或者是雲端。
除此之外,SDXL 1.0在微調也有了提升,可以生成自定義LoRAs或者checkpoints。
Stability AI團隊現在也正在構建新一代可用於特定任務的結構、風格和組合控件,其中T2I/ControlNet專門用於SDXL。
不過目前這些功能還處於beta測試階段,後續可以關注官方更新。
莫斯塔克表示,現在只需要5-10張圖片,就能快速微調模型。
從用戶反饋中也能看到,相較於Stable Diffusion,SDXL 1.0更能讓大家滿意。
6月份開始進行內測,前段時間發布了0.9版本,當時就預告了會在7月發布一個開放版本,即最新的1.0版本。目前相關代碼權重已經發佈在GitHub上。
而且Stability AI機器學習負責人表示,相較於SDXL 0.9,1.0版本降低了對算力的需求。
感興趣的童鞋快去試玩吧~
試玩入口:
GitHub:
參考鏈接: [1] [2] [3]