Midjourney的位置动摇了吗?新的AI绘图竞争者出现,附带四款产品的首次实战测试。
编辑日期:2024年08月25日
AI领域再度聚焦于图像生成技术的发展。
一系列的突破接踵而至:
8月21日,Ideogram正式发布了2.0版本,宣称其文本渲染能力更加强大。
这个项目始于去年8月,由四位谷歌AI绘画领域的专家共同创立,并已获得了多位AI业界领袖的投资。
此次,Ideogram还直接挑战Flux,并自信地表示在人类评估方面明显超越Flux Pro。
值得注意的是,Flux是由Stable Diffusion团队原班人马打造,最近因其生成逼真的TED演讲“照片”而在网络上广受欢迎。
此外,一周前,谷歌发布了Imagen 3,在官方评估中,它声称性能优于DALL-E 3、Midjourney v6和Stable Diffusion 3等一系列图像生成模型。
或许是受到了竞争的压力,Midjourney也在8月22日为所有用户推出了免费的网页版服务。
这下子,竞争变得愈发激烈!
既然各家都宣称自己的技术最强,那么我们就将它们汇聚一堂,进行一场面对面的比拼。
首先介绍我们的四位参赛者(均使用网页版):
现在正式进入比赛环节。
为了测试这些国外AI是否能理解中文提示词,我们也来蹭一下当前热门话题——黑猴子的热度。
提示词:游戏角色,一只穿着盔甲的猴子,戴着凤羽金冠,手持金箍棒,站在悬崖之上。
不出所料,发生了一个意外……
大家可能第一时间注意到了3号选手Imagen 3的红色叉号。确实,在相同的提示词下,只有Imagen 3拒绝了生成请求。
看到这里,我的第一反应是我们的关键词是否触发了版权保护。我尝试删除了提示中的“游戏角色”,但仍然收到无法生成的通知。
难道是谷歌Imagen 3不支持中文?随后我换了一个更简单的中文提示词,这次倒是得到了图像反馈。
不过,结果却是一个明显的错误,而且尝试了多个不同的中文提示词后,得到的都是一些无关的纹理图。
看来谷歌Imagen 3对于处理中文提示词确实存在问题。
在第三款工具失败后,再看看其他的选项,只有第一款Ideogram 2.0的表现最为出色。
第二款还能隐约看出一些国漫的风格,而第四款Midjourney则完全偏离了主题。(似乎完全没有关联)
最后还是要称赞一下Ideogram 2.0,它准确地捕捉到了所有的关键元素。
尽管这不是我期望的结果(我原本希望得到的是关于黑神话的内容),但从提示词还原的角度来看,它的表现无可挑剔。
接下来,我们来看看各位参赛者更为擅长的部分——人物肖像生成。
回想过去,Midjourney凭借一张天台情侣的照片在网络上引起了轰动;而现在,Flux则以一系列TED演讲的图像在网络上流行起来……
那么,究竟哪一款更加优秀呢?答案即将揭晓。
让我们首先关注2号和4号作品,很明显,Midjourney胜出!
从细节来看,2号Flux.1略有偏差,衬衫的颜色多出了两种,在一片蓝绿格子中显得格外突出。
另外,我们一开始就注意到了Imagen 3的一个独特之处:在生成图像前圈定了关键词。
通过它的成果,我们可以评估各参赛者对于关键元素(如蓝绿色格子衬衫、50mm镜头等)的还原程度。
总体而言,大多数参赛者(除了2号)的表现都很出色,不仅高度还原了描述,而且都面向镜头。
如果不是我自己知道这些图像是由AI生成的,可能真的难以分辨它们与真实照片的区别。(惭愧)
悄悄告诉你们,4号Midjourney的图像最吸引人。
成功地“欺骗”了所有人之后,现在轮到考验AI的另一项难题——
为图片添加文字。
这一直是个挑战,也是衡量AI图像生成能力的重要标准之一。
不多说,接下来让各位参赛者设计一个精美的广告牌。请各位观众把自己想象成客户。
一段描述性的文本如下:
一块水平放置的黄铜标志牌,上面用优雅的手写字体写着“Festive Season”,被松枝与冬青环绕,并置于深色木头背景之中,特写镜头聚焦在那闪亮的金色字体上。
乍一看,似乎一切都完美地还原了指示语的要求。
然而,如果仔细审视,就会发现2号作品——Flux.1中隐藏的问题:“Season”这个单词少了一个字母“s”。
除此之外,其他几份作品表现得都不错,可见各家AI在文字渲染的功能上下足了功夫。
因此,在选择时就看个人喜好了。(我个人更倾向于Midjourney的作品)
顺便一提,1号Ideogram在此次版本升级中特别强调了其“文字渲染”的功能,大家可以多多尝试。
最近,麦当劳邀请了11位由AI创造的美女代言人,为他们的薯条大肆宣传,引起了一波热潮。
其实背后的原理很简单:使用AI生成不同角色代言薯条的图像,然后把这些图像拼接成视频。
结果却出乎意料的成功,这段视频仅在Twitter平台上就收获了近千万的观看次数。
在赛博朋克风格的都市背景下,一位女孩正着手推广她手中的有机农产品。
很好,看来3号选手再次选择了“摆烂”。但这回确实让人有些摸不着头脑,提示词既非中文,也没有明显的违规之处……
在淘汰3号之后,1号选手Ideogram 2.0提供的商品种类最为丰富,包括大白菜、西红柿、紫甘蓝等各式各样的农产品一应俱全。
值得一提的是,它是唯一一家打出文字招牌来推广有机食品的,可以看出它非常努力地在工作。
此外,仔细观察可以发现,只有1号选手尽力模仿真人的行为方式,而2号和4号则似乎走了不同的路线。
说实话,如果参照某些知名品牌的广告风格来看,这次的生成结果似乎并未达到预期的效果(希望它们能更加贴近现实一些)。
不过,好在这些AI工具目前都是免费使用的,多尝试几次也无妨,关键还是要掌握正确的方法。[doge]
别急着离开,其实还有一个更为可靠的赚钱方法——
利用AI轻松制作棚内拍摄的商业宣传海报,这样一来就能省下聘请摄影师、租赁场地和后期制作的费用,岂不是美事一桩。
一支光滑的口红管在高雅的背景下熠熠生辉,彰显其浓郁的色彩与顺滑的质感。通过精准的聚焦与微微闪烁,营造出奢华的气息。
来个小测试:如果要为身边的女性朋友挑选一支口红,你会选择哪一款呢?(这可是一个艰巨的任务哦!)
哈哈,有没有人考虑过4号呢?
尽管4号Midjourney显得格外高端,但它的黑色调可能较为小众。(选择需谨慎哦!)
除了4号之外,3号Imagen 3的表现也非常突出,在丝绒布料的衬托下更显奢华,并且最重要的是,这支口红看起来非常真实。
相比之下,1号和2号就显得不太自然,给人一种“塑料感”。
因此,在这次比较中,3号显然是胜者。
总结一下,四款产品整体表现都很不错。在中文提示词的使用下,Ideogram 2.0成为了黑马,表现最佳。
今年2月,Ideogram发布了1.0版本,仅仅半年后,2.0版本已更新上线。
实际上,Ideogram与谷歌有着深厚的渊源。
Ideogram成立于去年8月,其创始团队中有四位成员曾是谷歌文生图研究Imagen论文的作者。
CEO Mohammad Norouzi,论文共同一作,他在多伦多大学计算机科学博士就读期间拿到了谷歌ML博士奖学金。
毕业后他加入谷歌大脑工作了7年,职位也一路升至高级研究科学家,主要研究的就是生成模型。
此外,他也是谷歌神经机器翻译团队的原始成员,Hinton团队自监督对比学习框架SimCLR的合著者。
CTO William Chan(陳俊樂),论文共同一作,他先后就读于加拿大滑铁卢大学、卡内基梅隆大学。
他2012年加入谷歌时先做的机器学习广告工程,后转到谷歌大脑作NLP研究。
联合创始人 Jonathan Ho,博士毕业于UC伯克利,曾在OpenAI工作一年,后加入谷歌。
他除了是Imagen论文的核心贡献者,还是去噪扩散模型奠基之作《Denoising Diffusion Probabilistic Models》的一作,这篇论文合著者中的Pieter Abbeel也是Ideogram AI的投资人。
联合创始人 Chitwan Saharia,论文共同一作,本科毕业于孟买理工学院,2019年加入谷歌,在谷歌主要负责领导image-to-image扩散模型的工作。
在Ideogram AI的创始团队中,还包括了Shayaan Abdullah,他曾经担任Twitter的机器学习工程师,并在去年4月离职后加入了Ideogram。
Jacob Lu是一位软件工程师,在加入Ideogram前,他曾就职于亚马逊等公司;而Jenny Lei作为软件工程实习生,在加入Ideogram AI之前曾在谷歌实习。
由此可见,Ideogram是由一支顶尖的扩散模型研究团队组成的,并且自成立以来就受到了资本市场的青睐。
Ideogram的种子轮融资由a16z与Index Ventures领投,融资额达到了1650万美元(折合人民币约为1.2亿元)。
在个人投资者中,不乏像Andrej Karpathy、强化学习领域的专家Pieter Abbeel以及GitHub的联合创始人Tom Preston-Werner这样的知名人士。
此外,有消息称在今年2月,Ideogram完成了新一轮的融资。
据报道,此次A轮融资成功筹集到了8000万美元(约合人民币5.7亿元),本轮领投方为Andreessen Horowitz,参与投资的还包括Index Ventures、Redpoint Ventures、Pear VC和SV Angel等机构。
拥有雄厚资金和技术实力的Ideogram无疑成为了AI生成图像领域的一匹黑马。
竞争,还在持续升级。
Ideogram 2.0网址:https://ideogram.ai/t/explore
Midjourney网址:https://www.midjourney.com/home
Flux链接: https://huggingface.co/spaces/black-forest-labs/FLUX.1-schnell
Imgen3链接:https://aitestkitchen.withgoogle.com/tools/image-fx
参考资料:
[1] https://x.com/ideogram_ai/status/1826277550798278804
[2] https://ideogram.ai/launch
[3] https://x.com/AIandDesign/status/1826277963681370213
一句话就能生成动漫。
可以改变姿势和调整构图。
与最佳条件生成法相比毫不逊色。
对扩散模型亦有早期贡献。
图像质量超越其他方法。
网友评价:可能是通往Sora的更经济的选择。