眼下最受关注的AI新星、DeepSeek创始人梁文锋,正在与张一鸣背道而驰的道路上一骑绝尘。
1月28日,DeepSeek发布新一代多模态大模型Janus-Pro,分为7B(70亿)和1.5B(15亿)两个参数量版本,且均为开源。
新模型一经发布,就登上了知名AI开源社区Hugging Face的模型热门榜。目前,在Hugging Face收录的40多万个模型中,热门榜前五中,DeepSeek独占其四。
据DeepSeek介绍,相比去年11月发布的JanusFlow,Janus-Pro优化了训练策略、扩展了训练数据,模型也更大,在多模态理解和文本到图像的指令跟踪功能方面,均取得重大进步,同时还增强了文本到图像生成的稳定性。
与先前引发全球AI圈轰动的R1大模型类似,Janus-Pro同样是“小力出奇迹”的成果。
根据DeepSeek发布的测试结果,这款文生图大模型在多项基准测试中表现出色,甚至强于OpenAI旗下的DALL-E 3,以及Stable Diffusion。
亦有用户指出,Janus-Pro谈不上全面超越DALL-E 3,后者在许多测试中依然更强,输出图像分辨率也明显优于Janus-Pro的384x384像素。尽管如此,Janus-Pro以70亿的最大参数量,与120亿参数的DALL-E 3打得有来有回,依然展现了不俗潜力。
“小力出奇迹”的策略,DeepSeek已经屡试不爽。
本月早些时候,DeepSeek发布R1大模型。作为一款开源模型,R1在数学、代码、自然语言推理等任务上的性能,号称可以比肩OpenAI当前最强的o1模型正式版。o1发布于2024年9月,此前从未被国内AI公司迫近,直到R1横空出世。
更重要的是,DeepSeek只花费了相当于OpenAI零头的资金、资源,就拿出了堪与o1比肩的产品。
DeepSeek并未公布R1的训练成本。可供参考的是,去年12月底,DeepSeek发布V3模型,与OpenAI的GPT-4o性能接近,使用2048块英伟达H800芯片,耗费约560万美元。相比之下,GPT-4o使用上万块英伟达H100芯片(性能优于H800),训练成本约1亿美元。
V3、R1不到一个月接连降生,除了震动业界,也让AI时代的卖卡王者闪了腰。
1月27日美股交易中,英伟达股价暴跌17%。一天之内,英伟达市值蒸发5940亿美元(约合4.3万亿人民币),相当于跌掉了一个腾讯加一个美团。
但长期来看,芯片依然是AI大模型的发展基石,英伟达作为这一领域技术壁垒最坚固的公司,“卖铲者”的长期价值依然坚挺。
面对DeepSeek 冲击波和其“小力出奇迹”的方法论,笃信并践行“大力出奇迹”的字节跳动难免有点尴尬。
自从2023年大举进军AI大模型以来,字节一边挥舞着支票簿,全球大手笔求购芯片;一边快速扩充AI业务矩阵,先后发布十几款大模型,外加十几个AI应用。无论是资金、资源、人才投入,还是AI产品矩阵和业务条线的数量,字节均遥遥领先其他国内大厂。
时至今日,字节在AI大模型领域的“大力出奇迹”收到了一些效果。根据量子位智库的数据,截至2024年11月底,字节旗下豆包APP的累计用户超1.6亿,日活跃用户接近900万,全球范围内仅次于ChatGPT。
但“小力出奇迹”的DeepSeek,让字节看似无可置疑的“大力”打法遭遇“破壁人”。
字节此前依靠“大力出奇迹”,在短视频、电商、本地生活、游戏、AI等领域开疆拓土。但DeepSeek证明,在技术创新的加持下,“小力”同样可以创造“奇迹”,这不仅揭示了一条新的技术路线,也蕴含着新的商业哲学。
在这一层意义上,梁文锋隔空“反对”张一鸣。DeepSeek不仅在AI技术和产品上打破了旧思维,也在不经意间点破了“大力出奇迹”并非放诸四海皆准的商业真理。
A
在Janus-Pro发布前,“小力出奇迹”的R1追平了o1,已经让一众科技大佬惊叹不已。同样“小力”的Janus-Pro,有多厉害?
先看成本。
根据DeepSeek披露的信息,新模型使用一种轻量级的分布式训练框架,1.5B参数模型大约需要使用128张英伟达A100芯片训练7天,体量更大的7B参数模型则需要256张A100芯片,以及14天训练时间。
以此推算,依靠大幅压缩芯片使用量和训练时间,Janus-Pro的模型训练成本(不含购买芯片等费用)可低至数万美元,相当于一辆新能源车的价格。
在大模型训练成本动辄以亿为单位的大环境中,区区数万美元,太省钱了。
再看性能。
据介绍,Janus-Pro是一种自回归框架,它将多模态理解和生成统一起来,将视觉编码解耦,以实现多模态理解和生成。它通过将视觉编码解耦为单独的路径来解决以前方法的局限性,同时仍然使用单一、统一的转换器架构进行处理。这种解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。
倘若看不懂上面这些拗口的技术名词,不妨参考DeepSeek提供的几个实例。
文生图方面,输入“一条金色的寻回犬安静地躺在木质门廊,周围洒满秋天落叶”,或是“一个有雀斑的年轻女人戴着草帽,站在金色麦田中”,Janus-Pro生成的图片都像模像样。
至于图生文,扔给Janus-Pro一张黄昏湖景照片,提问“猜猜这是哪里”,Janus-Pro能够判断出这是杭州西湖,甚至点出了图中著名景点三潭印月岛。
最后看落地。
Janus-Pro继承了DeepSeek的优良传统:开源。它使用MIT协议(限制最少的开源协议之一),个人、中小企业可以省不少钱。另有AI开发者认为,由于模型体量小,Janus-Pro可以在PC端安装、本地运行,有望进一步降低使用成本。
DeepSeek再度证明,“小力”做出来的东西,并不意味着技术落后、产品拉胯,更不一定抠抠搜搜,三步一个付费提示,五步一个月卡优惠。
而在时间维度上,“小力”甚至并不一定会比“大力”跑得更慢。
根据公开信息,DeepSeek于2024年前后推出Janus,同年11月迭代至JanusFlow。两个月后,Janus-Pro上线,在部分指标上已经具备与DALL-E 3扳手腕的能力。
Janus-Pro横空出世,揭示了大模型的各项成本——尤其是芯片成本——是可以被大幅压缩的。或者说,OpenAI、谷歌、字节们打惯了富裕仗,过于“奢侈”和依赖“大力出奇迹”了。
有趣的是,在创下美国上市公司有史以来最大的市值蒸发幅度后,英伟达回应称,“DeepSeek是一项卓越的人工智能进展”,同时不忘给自己做广告,称“推理过程需要大量英伟达GPU和高性能网络”。
被别人隔空暴打,还得强颜欢笑,对老黄来说也是头一遭。
B
Janus-Pro再度展示DeepSeek“小力出奇迹”的威力。相比之下,国外秉持“大力出奇迹”的OpenAI,近期却多少有点儿翻车。
比如文生视频大模型,去年2月OpenAI掏出Sora震惊全场,随后却是长达10个月的“闭门造车”。中美两国的AI公司纷纷趁机追赶。
到了12月,Sora总算正式上菜,价格昂贵,效果却一言难尽,被不少用户吐槽甚至不如开源模型。谷歌抓住机会,掏出自家的Veo 2与Sora对比,贴脸嘲讽。
尽管丢掉了先发优势,OpenAI仍然没有放弃堆芯片、堆算力的“大力”路线。
前几天,OpenAI拉着软银、甲骨文等公司,宣布要成立AI公司“星际之门”,未来四年投资5000亿美元,用于AI基础设施。OpenAI“一生黑”马斯克第一时间泼冷水,声称“他们实际上没有钱”,并言之凿凿称软银能够确保的资金远低于100亿美元。
与OpenAI相比,字节对于“大力出奇迹”的玩法更加精通,效果也好得多。
比如字节AI的核心产品——豆包大模型,在知识、代码、推理等多项公开测评基准上,最新的1.5 Pro版本得分优于GPT-4o,以及DeepSeek-V3。换言之,豆包1.5 Pro的性能同样位列全球大模型第一阵营。
不过,字节为AI大模型投入的成本同样惊人。
就在DeepSeek成为焦点的这几天,字节被曝出今年将投入超120亿美元用于AI基础设施。其中,55亿美元将被用于购买芯片,68亿美元将被用于海外投资。
字节随后回应称,相关消息并不准确。字节非常重视AI领域的发展与投入,但相关预算与规划传闻并不正确。
AI大模型技术仍处于快速迭代阶段,公司投入巨资研发、训练的新模型,可能几个月甚至几个星期后就不再领先。这意味着,如果字节沿着“大力出奇迹”的思路做AI,每年都需要砸下巨资。
这或许也从侧面解释了,字节发展AI大模型,为何从一开始就格外注重商业化。
背靠抖音、今日头条、飞书等业务板块,字节AI大模型不愁找客户,豆包使用量节节攀升。字节火山引擎总裁谭待曾透露,去年5月豆包大模型日均tokens为1200亿,12月15日突破4万亿,7个月里增长超过33倍。
另据界面援引知情人士言论称,豆包大模型经过多次降价后,毛利润率依然为正;豆包1.5 Pro的毛利润率高达50%。
但上述知情人士透露,由于研发投入巨大,字节AI大模型业务仍处于亏损。只有持续扩大应用侧的模型调用规模,才能长期摊销掉研发成本。也就是说,字节仍然需要继续推动“降价-拉来更多客户-获得更高收入-提高利润空间-降价”的飞轮。
相比之下,DeepSeek背靠的幻方量化是国内顶级私募之一,并不缺少资金。但DeepSeek不仅不烧钱,还想办法改进技术来省钱,最终实现“小力出奇迹”。
DeepSeek去年初露峥嵘后,OpenAI的奥特曼在社交媒体上发帖,暗中吐槽V3大模型缺少真正的创新,只是在复制有效的东西。
从技术角度来看,奥特曼这番话未必毫无道理;但从技术理念和企业哲学来看,DeepSeek无疑给AI大模型领域注入了新鲜空气。它不仅“小力出奇迹”,更“节省出奇迹”“开源出奇迹”。这套不讲“传统武德”的组合拳,已经让买芯片、堆算力的外国同行闪了腰,也让字节的“大力出奇迹”路线值得再度审视。
C
字节是“大力出奇迹”打法的受益者。如今,DeepSeek却成了它的“破壁人”。
“大力出奇迹”打法的基本逻辑是,找到最热的赛道,快速推出产品,然后注入远超对手的资金和流量,将其“催熟”,从而占据优势市场地位、获得超额回报。字节的主要业务——今日头条、抖音、TikTok等业务,都在“大力”的推动下,成为各自领域的领头羊。
2024年,字节的“大力出奇迹”依然在延续。
图源:AI制作
比如红果短剧,据QuestMobile测算,2024年3月,红果短剧的MAU约为5400万;当年11月,已经突破1.4亿,净增约9000万。一年增长近亿MAU,红果短剧显然离不开抖音乃至整个字节的托举。
在海外,号称“海外版小红书”的Lemon8,也在TikTok面临危局时大规模投流,下载量暴增,一度被视为字节的海外B计划。
而在AI领域,浙商证券在去年底的一份报告中估算,2024年字节在AI上的资本开支高达800亿元,接近百度、阿里和腾讯的总和(约 1000 亿元)。预计2025年,这一数字将翻倍至1600亿元,其中AI算力采购900亿元,数据中心基建和网络设备则占700亿元。
字节“大力出奇迹”吃过不少败仗,比如游戏、教育、PICO等。但作为字节的底层方法论之一,“大力出奇迹”并没有被舍弃。同时,红果短剧等新产品的成功,也证明这套方法论仍然有效。
但“大力出奇迹”要想充分发挥威力,需要外部环境存在这样的特征:技术创新的重要性,远不如资金资源。
在技术发展平稳期,企业往往会发现自己身处这样的环境。近些年,移动互联网技术基本没有大突破,哪家公司钱更多、资源更丰富,就更有能力抢占更多市场和利润。“大力出奇迹”不仅有效,几乎成为不得不选的答案。
但一旦技术有了飞跃式突破,资金资源就会退居次席。这样的故事,已经在新能源车、商业航天领域发生过,如今正在AI大模型赛道重演。
在这一层意义上来说,“小力出奇迹”的DeepSeek,打破了字节乃至中国互联网的执念和迷思。R1等新模型的强力表现,让技术再度压倒流量、资金、人力等,成为企业和行业发展的主要驱动力。
家底丰厚的DeepSeek并非被迫省钱,而是有意控制投入,将“小力出奇迹”视为一种更高层次的商业哲学,而非应对资金紧张的举措。这也意味着,大模型并非只是“大厂游戏”。中小厂完全可以用更少的芯片和费用,做出更好的产品,进而得到市场和投资者的认可。
相对应的是,AI大模型公司的发展潜力和投资价值,也不应与所持有的芯片数量强绑定。“小力出奇迹”的价值不仅在于技术,也让大厂主导的“大力”商业逻辑和价值体系发生动摇。
在科幻小说《三体》中,人类为了应对外星威胁,炮制各类耗费巨大的战略计划,却被小小的“破壁人”一语点破。而在商业世界中,忙于“大力出奇迹”的字节、OpenAI们,正在与DeepSeek扮演的“破壁人”正面相遇。
参考资料:
字母榜,《DeepSeek推翻两座大山》
腾讯科技,《省钱也是技术活:解密DeepSeek的极致压榨术》
人人都是产品经理,《霸榜全球 AI 产品 Top100、重启 App 工厂,熟悉的字节跳动又回来了》
鞭牛士,《字节跳动今年计划斥资120亿美元用于AI芯片》
钛媒体,《DeepSeek除夕炸场!开源多模态模型发布,仅128颗A100训练,英伟达市值减4.3万亿》
字母榜
字母榜官方正观号