时间:2025-09-11来源:ai02门户网
编辑:桃子润
【本站导读】Bard又双叒升级了!谷歌正式解禁Bard生图能力,文生图Imagen2模型加持,效果对标DALL·E。
前几天,谷歌Bard瞬间登上LLM榜单第二,赶超GPT-4,AI圈瞬间炸锅。
「Bard什么时候这么顶了」?
原来,并不是没有道理。
就在刚刚,谷歌官方宣布:在最新版GeminiPro的加持下,Bard不仅获得了推理、理解、总结、编码能力的迅速飞升,而且还能支持230多个国家的40多种语言。
与此同时,「只能炫图无法实操」的谷歌至尊文生图模型Imagen2,也被免费集成到了Bard当中!
文生图能力还可以在谷歌的ImageFX、Search和VertexAI上体验
Bard生图有多强?
去年12月,谷歌推出了最新的Imagen2模型,便能够实现高质量、照片级逼真的输出。
生成效果虽惊艳,却遭到众多网友吐槽:不开源没什么用。
左右滑动查看
如今,所有人都能上手试试Imagen2的能力了。先来看看谷歌官方给出了Bard生图的许多例子。
比如,生成一只脚踩冲浪板的狗。
还有更多Bard生成的精彩的图片:
提示:Generateacollageart,withphotorealisticimagesofoceansandplantswithmutedcolorsand3Dshading,that’smixedmedia.
提示:WriteasocialmediapostandgenerateamouthwateringimagethatIcanuseforabuffalowingfestival.
提示:Generateanimageofafashionshowinsteampunkstyledigitalart.Zoominontheirface.
提示:Generateanimageofafuturisticcardrivingthroughanoldmountainroadsurroundedbynature.
提示:Generateavibrantandlivelyimagedepictinganelephantpartyingintheheartofalush,vibrantjungle.Theelephantshouldbeinvariouscolorsandbeadornedwithfunaccessories.
提示:Generateanimageofaclutteredalchemist’sworkshop,filledwithbubblingflasks,glowingcrystals,andthetiny,luminousworldswirlingwithinthebottle.
提示:Generatearealisticphotoofapersonlookingoffcameraduringsunset.Portraitmodesothebackgroundisfaded.
为了负责任生成,Bard生成的图像都将由SynthID进行标记。
SynthID是谷歌DeepMind开发的一种水印工具,可将数字水印直接嵌入到我们生成的图像的像素中。SynthID的水印人眼无法察觉,但可检测以进行识别。
网友**评测
网友PeteBlackshaw用Bard生成了「一只吹着喇叭的贵宾犬」,看着有种抽大烟的赶脚。
他还用同一个提示「Drawthe#Cincinnatiskylinewithahistoricpaddlewheeler」让Bard和GPT-4**拼,看着Bard生成的图片可能因为色调,多了一分真实感。
另一位初创公司创始人RyanCarson同样用一个提示分别测试了DALL·E3和Bard。
他表示自己还是更喜欢DALL·E3生成的图片,尽管贵了32倍。另外,Bard忽视了1792×1024大小的请求。
Createanimagethatisanisometricvideogametilefeaturingafox.Thesceneisstylizedwithalow-polydesign,typicalofmoderndigitalillustrationsinvideogames.Thetileshouldberenderedinadigitalartstyle,withsoft,warmlightinggentlyhighlightingthefacetedsurfaces,emphasizingtheminimalistaesthetic.Theoveralleffectshouldconveyserenesimplicity,characteristicofcontemporarydigitallandscapesinvideogamesormoderndigitalart.Thefocusisonthefox,whichshouldberenderedwithgeometricshapes,maintainingtheisometricandlow-polytheme.1792×1024.NOLOGOS,TEXTORWORDS.
小编更觉得Bard生成狐狸的鲜艳度,更像是「小王子」中的那只狐狸。
左:DALL·E3;右:Bard
另外一位网友在Midjourney中尝试了下,花了0.04美元。
著名的导演YamLaranas用Bad画了一幅「好莱坞的摄影稻草人」。
网友YamLaranas生成的寿司看起来很美味。
马库斯自己用「drawavideogamehedgehog」生成的刺猬。
网友RajGoodmanAnand表示,被Bard的图片生成技巧震撼到了!它不仅在视觉上很出色,而且还能准确地生成文字,这是DALL·E经常遇到的问题。
海绵宝宝吃墨西哥卷饼。
网友chientrm做了一个火星系列。
从火星的基地、到城市全貌、宇宙飞船、再到室内环境,全都设想出来了。
左右滑动查看
AndrewC.Becker发现Bard双手也可以画的非常完美。
自称AI发烧友Edward尝试了四次,画出了一位蓝眼睛棕发的女人。
要是和Midjourney相比,人物面部形象的生成确实差了一大截。
卡通动漫风把控的还是不错。
宫本武藏。
禅宗花园。
魔法城堡。
骑在马上的骆驼,第一张图突然多了一条人腿。
网友LoudEgg创造了一个正在喝啤酒的七星瓢虫,不过貌似它在喝的是咖啡。
createaladybugusingacomputerwhiledrinkingbeer
这些手的生成也失败了。
还有怪异的,眼睛。
有些内容,是Bard无法创作的。
Bard/GPT-4/Midjourney三家对打,谁是用户的心头爱
既然Bard已经放开使用了,我们就上手对比了Bard,GPT-4(DALL·E3),Midjourney在生图质量和相同提示词下生图的区别。
各家都有自己的特点,DALL·E3胜在结合了GPT-4之后有最强的语意理解能力,只要用户能提得出的需求,他就能画出来。
Midjourney依然有最强的美学表现力和多样的风格。
要画得图赏心悦目,10刀一个月的Midjourney依然是最有性价比的选择。
Bard胜在一个免费,毕竟不要钱对很多偶尔体验一下的用户来说真的非常重要。
而且它的风格整体上偏写实,如果你想方便地创作出写实,风格自然的图片,Bard甚至比前面两家更好用。
我们先从一些简单的提示词开始,看看他们对于那种比较笼统的提示词处理起来有多大区别。
plzcreateanimageofatableofdeliciousfamilydinner
Bard:
Bard生成的图片风格相当的自然真实,光影和构图都已经非常趋近于照片了,效果相当不错。
GPT-4:
GPT-4生成的图片内容更加丰富,甚至有一点点浮夸,色彩和构图都更偏向于动画的风格。
而Midjourney的效果就更加惊艳了,特别下面两张图真的是和照片几乎没有区别,光影,食材细节和真实度,镜头感全都拉满。
总结3家表现,Midjourney略胜一筹。
既然做了丰盛的美食,我们再试了试如果要生成一桌寒酸的饭菜,模型的表现会怎么样呢?
plzcreateanimageofatableoflowqualityfamilydinner
GPT-4真的是秒懂,同一句提示词就是把形容词一换,效果马上大变样,语意理解能力和生图效果非常精准!
而Midjourney似乎没有看出提示词发生了什么区别,还是上了一桌色香味俱全的菜,甚至让我怀疑是不是提示词打错了。
再次确认了提示词之后,只能感叹,模型的提示词理解的能力,果然OpenAI还是第一档。
而最让人意外的是,Bard也感知到了提示的变化,但是它觉得这个提示词触发了它的护栏,拒绝作画。
而在我们测试的过程中也发现,Bard的安全护栏几乎是使用的所有AI产品中最敏感的,只要提示词中出现感**彩「中性以下」的词,就很大概率触发护栏,拒绝生成。
plzcreateanimageoffamilymemberswatchingafootballgameonTV
接下来我们再测了一下和人物有关的简单提示词的生图效果。
Bard对人物的处理还是不太好,手和表情都会偶尔出现失真的情况,细节处理的也不太好。但是风格上还是保持了比较真实朴素的效果,「AI味」不太浓。
而且Bard的图片构图方式会比较多样化一些,有从电视的视角构图,也有从其他角度。
而GPT-4的画面风格整体上还是偏动画一些,「AI味」比较浓。
而且从细节上来看,GPT-4一直都试图在画面中融入更多的人物和物品,给人一种量大管饱的感觉。而这点Bard就处理的比较自然。
Midjourney依然还是延续画面风格最多样,审美表现最高的表现。美中不足的只是构图上似乎比较重复,没有太大的变化。
还有个小问题是似乎电视里面的风格和电视外面的风格不一致,比如右下电视里感觉比较写实,而电视外的人物却是动画版,感觉次元壁似乎出了点问题。
plzcreateanimageofacryingboywatchingcartoonsonTV
我们让AI生成一幅小男孩哭着看动画片的图片,想试试在另一个背景下AI能不能捕捉到提示词中的感情风格的差异。
GPT-4非常好的呈现了这幅画面,补充了一个黑色的房间作为背景。
小男孩哭泣的表情也很到位。
而Bard还是老问题,一涉及到负面的情感,它就触发了护栏,拒绝生成。
Midjourney生成的效果也很不错,不但很好地捕捉到了提示词感**彩的变化,而且构图和美术风格都有多样的呈现。
然后,我们又尝试了复杂的提示词生成的效果,看看3个模型对于提示词理解和画面效果有什么区别。
Createanimageofabustlingcitystreetatdusk,teemingwithlifeandenergy.Thesceneissetinavibrantdowntownarea,withthesettingsuncastingawarm,goldenhueoverthebuildings.
Peopleofdiversebackgroundsarewalkingonthesidewalks,someinahurry,othersleisurelystrolling,capturingtheessenceofurbanlife.Amongthem,astreetmusicianisplayingaviolin,addingamelodioussoundtracktotheurbanhustle.Streetvendorslinethesidewalks,sellingeverythingfromhotfoodtohandmadecrafts.Thearchitectureisamixofmodernskyscrapersandhistoricbuildings,illustratingthecity’sdynamicgrowthandrichhistory.
Neonsignsflicker,invitingpassersbyintocozycafesandbustlingshops.Thisdetailedurbansceneisalivewiththerhythmofcitylife,embodyingtheharmonyofchaosandorderthatdefinesametropolisattwilight.
GPT-4确实能很好的捕捉和还原提示词中细节,内容非常丰富。
不过似乎为了追求细节的丰富,让画面整体觉得有点不自然,像是专门「摆拍」出来的,而且卡通风格有点过于浓重了。
Bard的画面整体上要自然很多,没有为了故意反应提示词中的细节而画很多的人物。
而且画面构图也比较多样,美术风格也和画面内容搭配的很好。
而这种风格还得看Midjourney,细节饱满,美术风格多样,画面自然,甚至画面中所有人物的穿衣指数都很一致,在审美和准确度上达到了最好的平衡效果。
CreateanimageofEnvisionanancientlibrary,hiddenawayfromthemodernworld,filledwithtoweringshelvesofoldbooksandscrolls,castinglongshadowsinthedimcandlelight.
Theairisthickwiththescentofagedpaperandthewhisperofknowledgepassedthroughcenturies.Inthecenter,alargewoodentableisstrewnwithopentomesandancientartifacts,underthesoftglowofahanginglantern.
Asolitaryscholar,cloakedinarobe,poresoveranancientmanuscript,usingaquilltotakenotes.Aroundhim,thewallsareadornedwithmapsofforgottenworldsandportraitsofscholarspast.
Theatmosphereisoneofsolemnityandreverenceforthepursuitofwisdom.Thisscenecapturesamomentfrozenintime,asanctuaryoflearninguntouchedbythepassageofages.
GPT-4依然是画面细节最为丰富的模型,再次体现出了OpenAI对于语言的把握能力特别强。但缺点就是从画面始终有点不是很自然,为了追求细节始终让人感觉有些「摆画」的感觉。
Bard就感觉没有办法把原提示词中很多氛围感的描述体现出来,整体上画面比较简单,细节丢失的比较多。
而Midjourney整体上依然让人感觉更像是艺术品,审美水平,细节还原度和氛围感都做到了统一。
经过实测之后,明显能够看出3个生图AI各自的特点还是有很大区别的,但是Bard因为免费,所以效果比两个收费的模型还是稍微逊色一点。
但是它非常自然真实的画风给人的观感还是很好的,如果能在后续的更新进一步改进模型的细节质量,一定也会吸引一波自己的忠粉。
至少,现在免费的生图工具又多了一个。
网发此文仅为传递信息,不代表认同其观点或证实其描述。同时文中图片应用自网络,如有侵权请联系删除。