豆包大模型再造爆款：抖音“AI绘本特效”播放超11亿

文章正文

发布时间：2024-10-12 13:36

国庆期间，抖音上一款名为“AI治愈绘本”的特效吸引了数百万用户投稿。该特效采用了动态绘本的拟物玩法，首次使用了3D立体翻书的形式，巧妙地将首张用户图作为书皮呈现，玩法新颖有趣。截至目前，基于该特效投稿的“成为绘本里的温暖主角”话题播放量超过11亿。

雷峰网(公众号：雷峰网)了解到，“AI治愈绘本”特效底层使用了字节跳动豆包大模型的图像生成能力，技术团队通过多项自研算法，保证了模型有更好的风格响应度、画面美观度，让风格化效果更富有表现力，并且更大程度还原了人物面部特征、服装款式、颜色、配饰等主体特征，在“美且像”的维度上取得了良好的效果。

为呈现更好的交互方式，技术团队使用了自研的主体抹除、扩图能力，对风格化结果图进行后处理，使得多张结果图可以在端上进行切换。上述过程中应用到的IP保持技术 RealCustom 和 AI扩图和AI消除技术ByteEdit，两项成果分别入选CVPR2024和ECCV2024。

豆包大模型再造爆款：抖音“AI绘本特效”播放超11亿

RealCustom ：生成效果又美又像本人的IP保持技术

RealCustom是一种个性化定制技术即IP保持，对于任意开放域物体或人物 IP 均可实现无需微调的实时定制化生成，在AI绘本中主要起到保持输入图片特征的作用。

不同于以往风格化特效中用的图片特征保持方法， RealCustom不仅能够还原图片的细节特征，还具有对图片的抽象语义理解，从而可以根据文本输入自适应地做出变化，并生成更加和谐的效果。

为了更好的还原主体外观，RealCustom 使用了多个层次的图片信息融合，为了让视觉信息跟文本信息能更好的融合，RealCustom 通过自适应模块学习了视觉条件与文本条件之间的对齐能力，并根据不同时刻的状态准确地推导出相应的视觉条件。从而能对用户多种多样的输入做出自适应的处理，在保证好看的风格化效果的同时，稳定的保持图片特征。

豆包大模型再造爆款：抖音“AI绘本特效”播放超11亿

ByteEdit：让填充背景更自然和谐的AI扩图和AI消除能力

特效中用到了AI扩图和AI消除的能力，其中AI消除是指消除图像中指定的某个物体或区域，并根据周围的背景来填充消除位置的内容；AI扩图则根据指定的扩展比例来延展原图像的内容。这两个任务本质上都是根据已知图像的内容去填充周围的区域，重点在于如何让填充的内容和原图没有违和感。

为了达到这个目的，首先，技术团队增大了训练数据量级，让模型「看到」更多泛化场景。此外，ByteEdit 提出了一种创新的框架，利用反馈学习来增强生成性图像编辑任务。ByteEdit 通过集成图像奖励模型来提升美学质量、图像与文本的一致性，并引入密集的像素级奖励模型以增强输出的一致性，让希望填充的区域和非填充区域更加的和谐。此外，提出了一种对抗性和渐进式反馈学习策略，以加快模型的推理速度。

豆包大模型再造爆款：抖音“AI绘本特效”播放超11亿

除此之外，“AI治愈绘本”特效可以支持用户上传多张图，在做能力部署时，技术团队针对该场景单独做了一套多服务并行逻辑以及性能加速策略，最大程度保障了在流量高峰期时，能够在最短时间内将风格化结果图、后处理结果图等顺利返回到端上。端上获取多张结果图后，技术团队依托自研的书本3D运动和阴影跟随算法，对书内各个物体的运动曲线进行参数自动化调整，在模拟书本翻页以及内页跳出的过程中，阴影效果可以随书页自然移动，更大程度保留了书页翻动的立体感与自然感，边缘的阴影过渡相对流畅。