“提示词是‘轻舟已过万重山’。”随着指令落下,不到15秒,一幅山水景致跃然屏幕之上,李白笔下的诗意被精准展现。5月21日,国内首个基于国产算力预训练的视觉基座大模型——“橘洲”V1端侧版在长沙正式上线,其在“断网”条件下上演惊艳首秀,标志着我国在视觉大模型领域实现从“云端依赖”到“端侧自主”的跨越,并以“轻量化、高精度、强隐私”的技术突破,链接文生图片与千行百业。
当前,全球AI竞赛已进入“端侧部署”新阶段。视觉基座大模型作为视觉人工智能生成的基础设施,存在推理成本高、数据隐私缺乏保障、带宽和时延要求严苛等弊端,端侧通用视觉大模型成为破局关键。
作为湖南省100个标志性数字新基建项目,“橘洲”由湖南汇视威智能科技有限公司(以下简称“汇视威”)依托中科曙光算力自主研发,是基于国产算力预训练的视觉基座大模型。区别于当前主流的视觉生成大模型,“橘洲”既可以在飞行模式下,实现智能手机端1024×1024分辨率图像的秒级生成,也能满足在移动端上的部署和推理需求。大大节省算力成本的同时,彻底打破创作场景的时空限制,为视觉大模型在B端市场的落地应用带来无限前景。
“传统视觉大模型因参数庞大、算力需求高,长期受困于云端部署等三大桎梏。”汇视威创始人顾善植介绍,面对这一行业痛点,其团队以“极限蒸馏”与“架构重构”技术,将解码模型参数量压缩为国外主流开源模型的1/20。在实现数据隐私安全的基础上,在安卓和IOS端均能做到秒级生成图片,确保用户的个人创作不受时间和空间限制。同时,“橘洲”还具备移动端生成高分辨率图像的能力,移动端文生图的效果可达到国内行业先进水平。
目前,“橘洲”已经构建超4000万张高质量图文数据集,融入独特的中国文化元素库,使生成图像更贴合国人审美与场景需求。
顾善植表示,未来汇视威将逐步拓展至文生视频、视频理解等领域,构建“端云协同”的智能生态。
(湖南日报)