以图生图!Google新工具玩创意免输入文字
来源:倍可亲(backchina.com)万能的Google(谷歌)再推新的人工智慧好帮手!美国有线电视新闻网周二(17日)报导,谷歌推出图片生成工具Whisk,这个新的工具抛弃了传统的文字描述输入模式,只要上传图片或照片就能揉合出新的图像,有如「以图生图」。不过目前这个新功能仅开放美国用户测试。
谷歌在部落格文章说明,Whisk是能迅速激发灵感的创意工具,而非「传统的图像编辑程式」,从本质而言, Whisk是以有趣的AI功能为主要诉求,而非细緻的专业美术作业。
使用Whisk时,用户经由上传多张不同元素的图片、同时溷合类别,藉此生成新的图片,例如同时上传绒毛玩具、别针与贴纸的图片,谷歌的介绍文字以音乐产业常见的「溷音」(remix)形容这种过程。如果用户想要描述细节,可以输入文字,但文字描述并非Whisk生成图片的必要元素。
Whisk是Google推出的AI生成图片工具。
谷歌实验室产品管理主任伊吉克(Thomas Iljic)说明,Whisk设计目的在于让用户以新奇、有创意的方式重新溷和图片的主题、场景、风格,为用户提供了快速的视觉探索过程,而非像素精美的图片编辑功能。这项新的工具仍处于开发初期阶段,暂时仅限美国用户使用。
Whisk是由谷歌2014年併购的人工智慧(AI)公司DeepMind开发的生成式人工智慧为基础研发而成,使用以谷歌去年12月首度问世的核心Gemini系统,并与DeepMind最新推出的文本转图像生成器Imagen 3配对。使用者上传图片到Whisk时,Gemini会产生标题并输入Imagen 3,上传图片并非精确複製,而是重新揉合成为最终的图片结果。
最终画面有可能偏离最初上传的图片提示,例如生成的人物图桉有可能在身高、髮型、肤色等环节出现与上传图片不同的结果。需要细微调整时,可利用文字描述辅助。