当你随机点击书中的一段文字,这段文字则会作为提示词实时生成一张配图。为了看起来不像“预制菜”,开发者在生成过程中加入了随机种子(Seed),这样即便反复点击同一段文本,生成的也是为同一段内容搭配的不同图片。 我请教了几位有孩子的家长朋友,并总结了他们挑选儿童绘本的大致逻辑:图像和文本质量要过关;分“年龄段”;故事有逻辑,线索丰富最好。我们一起看看 Storybook 能不能满足这些需求? 首先,AI 生成的插画质量不错,清晰度高,色彩丰富,甚至将毛毛虫长大的面部神情展现了出来。总的来说,是一个情节简单、欢快的科普小故事。 角色有穿风衣的熊侦探、戴眼镜很显睿智的猫头鹰教授、骑士、偷了故事书的公主玩偶。但是公主在几张图上都不一样,说明角色一致性还有待提高。 然而我不太理解一个情节,就是保护童话书的骑士为熊侦探提供线索(后来我反应过来,既然熊能当侦探,为什么骑士不能去图书馆值夜班保安,果然大人的想象力还是太局限。) 你可以直接在 Gemini 的对话框里输入希望对绘本进行的调整。比如我当时要求调整一下“骑士”角色,换一个找寻失窃图书的线索。 父母希望小孩在成长过程中逐渐理解“友情”、“勇气”等“抽象概念”,但是有时候苦于找不到一个合适的机会。如果这些从一本小孩经常阅读的绘本中演绎出来,会是一个很好的教育方式。 Storybook 很有想象力的一点是,还支持上传文件。比如孩子刚画了一张画,满心期待地给你看,你除了夸夸,还可以让 AI 基于这张画生成一个故事(母慈子孝这不就来了)。 或者孩子总是缠着你,让你解释啥是黑洞、人工智能能做什么、你做啥工作的?为什么总是那么忙……你都不必再用一句,“你还小,现在还理解不了,长大了自会知道”敷衍了事。 目前该功能支持中文、英文、意大利语等在内的45种语言。建议你用来生成架空的故事,比如有一次我尝试让它做一本“荆轲刺秦王”绘本,不出意外的,AI 又胡说八道了。 背后大概的技术链条是,利用 Gemini 创作一个10页的故事——Gemini 再为每一页故事创建图片提示,发送给 Imagen——再由模型微调技术保证画面风格迁移和人物角色的一致性,类似基于 Stable Diffusion 做的 LoRA 和 Dreambooth,你可以将它理解成生图模型上打的一个“补丁”。 就在最近,Google 推出了Gemini 2.5 Flash Image。目前不清楚 Storybook 是不是更新到这个最新的图片生成模型,但可以看出角色一致性、完全基于提示的图像生成和编辑一直是图像模型追求的能力提升,也是图像模型产生实用价值的关键。 应该是为了保证一致性效果最佳,Storybook 目前至多生成十页绘本,限制了它没法展现复杂逻辑或宏大主题的故事,总是看得我意犹未尽的。 二是,这样 AI 将进一步淹没出版、作家、插画师等行业的努力——目前有第三方做了一个在线绘本库,上面已经上传了三百多个经挑选过的用 Storybook 生成的绘本,并根据年龄段、情绪基调、语言、类型、故事背景做了区分(https://geministorybook.gallery/)。 技术中立太老生常谈了。Storybook 可以作为低龄儿童的辅助阅读材料,如果你用承担认字和阅读分级教育作用的正规出版图书作为标尺,那么 AI 绘本显然不够如此严谨。 能让小孩时常回味一些和家庭、朋友之间的美好瞬间,父母为孩子讲解就在当下他所感兴趣,或困扰着他的话题,也许是比起传统绘本,AI 绘本更有价值的地方。


