在AI技术日新月异的今天,快手再次以其前瞻性的视野和强大的技术实力,为创意产业投下了一颗震撼弹。今日,快手正式宣布开源其自主研发的图像生成模型——“可图Kolors”,这一举措不仅标志着图像生成技术迈入了一个全新的阶段,更在中文文字生成与融合方面取得了突破性进展,为创作者们开启了一扇通往无限创意的大门。
快手此次开源的“可图Kolors”绝非等闲之辈。该模型在数十亿级的文本图像对海洋中深耕细作,通过海量数据的滋养,孕育出了强大的图像生成能力。尤为值得一提的是,它搭载了通用语言模型(GLM)作为文本编码器,这一设计使得“可图Kolors”不仅精通英文语境,更在中文领域展现出了非凡的理解力和创造力,真正实现了双语无缝切换,为全球创作者提供了更为广阔的创作空间。
“可图Kolors”的亮点之一在于其卓越的中英文双语支持能力。在AIbase的初步测试中,该模型在中文文字生成方面的表现尤为抢眼,几乎能够准确无误地将中文提示词转化为生动形象的图像元素,且能巧妙地将中文文字嵌入画面之中,为图像赋予更多层次的意义和表达力。相比之下,虽然英文生成偶有瑕疵,但这一小瑕疵并未掩盖“可图Kolors”在双语处理上的卓越成就。
更为难能可贵的是,“可图Kolors”还支持长达256个token的上下文处理,这意味着创作者可以更加自由地挥洒创意,无论是构建复杂场景还是编织动人故事,都能得到模型的精准响应和生动呈现。同时,针对中国文化元素的特别优化处理,更是让生成的图像充满了浓郁的中国风情,满足了本土创作者的独特需求。
技术层面,“可图Kolors”基于先进的SDXL模型架构,并深度融合了ChatGLM256技术,这一创新组合不仅增强了模型的双语理解和文字生成能力,还进一步提升了图像生成的多样性和精准度。然而,值得注意的是,运行如此强大的模型对硬件设备也提出了较高的要求,大约需要19GB的显存支持,这或许是少数创作者在享受技术红利时需要克服的小小障碍。
但快手显然已经考虑到了这一点。开源计划中不仅包含了“可图Kolors”模型本身,还一并提供了CN(ControlNet)支持、LoRa(低秩适应)、IPA(图像提示适应)和ComfyUI等一系列工具和接口,旨在帮助创作者们更加高效、便捷地利用这一技术成果,实现个性化创作。
AI旋风认为,快手的这一开源之举不仅仅是对技术社区的慷慨馈赠,更是对创意自由的一次勇敢宣言。它展示了快手在AI技术领域的深厚积累和前瞻布局,同时也为我们揭示了AI技术在艺术创作中的无限潜力。随着“可图Kolors”的广泛应用和不断迭代升级,我们有理由相信,未来的艺术创作将更加多元、更加精彩,而这一切的起点,正是今天快手所迈出的这一步。