超单助手邀请码:中国AI逆袭,DeepSeek如何低成本超越美国科技巨头?
中国AI逆袭!小公司掀翻美国科技巨头,美股都被震崩
家人们,过年那会本热热闹闹,可大洋彼岸的美股却突然崩了!原因令人咋舌,竟是咱中国的AI把美国那些科技巨头给“收拾”了,这可把硅谷和华尔街的精英们惊得不知所措。
主角是一家来自杭州的创业公司DeepSeek(深度求索)。2023年7月才成立的它,在2024年1月推出第一代大模型。谁能想到,其最新版本一经问世,便火爆全球,在包括中美在内的23个国家和地区的苹果商店下载榜中登顶,一举超越谷歌、Meta、微软、OpenAI等科技巨头,创造了中国应用同时登顶中美两大榜首的历史。
与国外动辄砸下几百亿、上千亿美元,召集一堆顶级专家搞研发的大模型不同,DeepSeek团队仅有一百来号人,成员大多是国内高校毕业生。但其大模型性能毫不逊色于国外主流产品,甚至更胜一筹。以训练成本为例,它刚发布的新版本训练成本不到600万美元,却能与美国人工智能领域“扛把子”OpenAI的产品性能持平,而OpenAI的训练成本超过10亿美元。超单助手邀请码的观点是,这差距,就好比人家花大价钱请1万个米其林大厨,折腾三个月才做出一桌满汉全席,DeepSeek却用一个肉夹馍就达到了类似效果。连Meta(扎克伯格的脸书)的工作人员都惊叹,这家名不见经传的公司,AI产品性能超美国顶级同行,成本却低得离谱,甚至比不上Meta一个高管的年薪,如此一来,竞争优势太过悬殊,美国的AI团队怎能不慌,工程师们都在疯狂研究DeepSeek的代码。
更让人惊喜的是,DeepSeek不仅产品做得又快又好又便宜,还毅然将技术开源,把参数、技术细节免费公开,任大家验证、下载、修改。这一举动,对于那些被巨头压制、买不起训练芯片的小公司来说,无疑是久旱逢甘霖,纷纷成为DeepSeek的忠实粉丝。事实证明,其产品确实好用,恰似一群武林高手激战正酣,特效拉满之时,突然冒出一个年轻人,凭借一套朴素的军体拳便称霸武林,还大方地向众人传授拳法,这怎能不让其他高手心态崩溃。
DeepSeek的成功冲击巨大。OpenAI的老板迅速宣布旗下大模型欧三迷你取消每月200美元的使用费,改为免费。英伟达的股价更是连续暴跌,连累一众芯片股。以往,国内外研发大模型都高度依赖英伟达的算力芯片,其芯片如同游戏中的“屠龙宝刀”,独一无二,且研发大模型成本高昂,大头都花在芯片采购上。如今DeepSeek证明,无需依赖昂贵芯片,也能打造高性能大模型,这使得市场对英伟达芯片的需求锐减,价格自然一落千丈。美国媒体向来苛刻,此次却罕见地一致夸赞DeepSeek,甚至称其为全人类带来前所未有的机遇,这剧情之精彩,让人难以置信。
然而,我们也不禁思考,在芯片和人工智能领域,中国企业的条件与国外相比差距明显,DeepSeek究竟是如何实现弯道超车,将硅谷同行打得节节败退的呢?它真有如此神奇,还是被过分夸大了?
实际上,国内AI大模型发展面临诸多难题。一方面,训练人工智能大模型需要海量现实数据,像新闻网站、论坛贴吧等平台的内容都是其学习素材。但专家预计,到2024年可用于训练的数据将几近耗尽,这就如同大模型读完了所有书籍,无新知识可学。另一方面,中国AI企业难以买到最顶尖的算力芯片,与国外相比,差距就像用学习机和电脑,十分悬殊。
面对这些困境,DeepSeek积极应对,采取了一系列明智之举。其一,优化算法。既然数据有限,那就让AI学会推理和思考,减少对大量数据的依赖,通过总结规律举一反三来降低成本。例如,普通模型识别猫可能需要看1万张照片,而DeepSeek的算法让模型抓住尖耳朵、长胡子、长尾巴等关键特征,仅需500张照片就能学会。
其二,进行模型蒸馏。即挑选一个成熟的语言大模型,深入研究其算法逻辑并提炼出来,这好比向大师学艺,学成后还获赠大师毕生总结的秘籍。随后让DeepSeek的大模型学习这本“秘籍”,站在巨人肩膀上,既能看得更远,又能节省时间和精力。
其三,选择开源。这一决策将受巨头打压的海量草根AI开发者,以及像AMD这种被英伟达压制的芯片厂商团结起来。大家携手合作、互通有无,有望打破AI大厂的封锁和垄断。正如图灵奖得主杨丽坤所言,这或许并非中国AI超越美国,而是开源战胜了闭源。
当然,我们必须承认,目前像DeepSeek这样能在AI大模型领域从无到有实现创新的中国企业数量有限。而且,它爆火之后,大模型也曾出现宕机、注册失败等问题。但它的出现意义非凡,令硅谷大厂心生寒意。因为它证明了,即便在条件不利的情况下,中国企业依然能够创新出更高效的解决方案,甚至改变行业规则。超单助手邀请码推测,更何况,DeepSeek原本只是一家量化投资公司的副产品,就像韩剧里警察为监视嫌疑人开饭店,结果饭店生意火爆一样,它的成功有着意外之喜。这一现象,着实值得我们深入思考。