3月10日消息,如今开发人工智能的成本正降至历史新低。更低廉的人工智能开发技术的确让开发者欢欣鼓舞,但这并非全然利好。随着成本降至谷底,大科技公司在基础模型上的高昂投资必须得到合理解释。
打造一家人工智能公司究竟要花多少钱?随着大语言模型的研发成本越来越低,这个数字每天都在下降。
人工智能算力成本持续下降,此外用极低成本训练出优质大模型的“模型蒸馏技术”在不断普及。新型廉价开发技术令AI开发者欢欣鼓舞,但这并非全然利好,也让一些企业感到寒意。这项历史悠久的技术正被赋予新价值:对多数人是福音,对特定群体意味着复杂挑战,而对AI未来则意义深远。
人工智能开发者和专家表示,蒸馏技术的本质在于运用一个模型提升另一个模型。让一个较大的“教师”模型生成应答与推理路径,再让一个较小的“学生”模型模仿其行为模式。
据传中国公司DeepSeek(深度求索)以约500万美元成本训练出与OpenAI抗衡的模型,在业界引起轩然。该消息引发股市恐慌,因担忧芯片需求下降,英伟达市值惨跌6000亿美元(但此预测尚未成真)。
加州大学伯克利分校的研究团队则在今年1月份发布研究,表明他们用不到1000美元的算力成本就训练出两个新模型。今年2月份,斯坦福大学、华盛顿大学以及艾伦人工智能研究所的研究人员更进一步,只用更低成本就训练出一个可用的推理模型。
这项技术通常会搭配微调技术(fine-tuning),能以远低于其他方法的成本在训练阶段提升模型性能。开发者常用这两种技术赋予模型特定的专业知识或技能。例如,可以将Meta开发的通用基础模型蒸馏成精通美国税法的专家系统;或者利用DeepSeek的R1推理模型对Llama进行蒸馏,从而增强后者的推理能力,让Llama在生成答案需要更长时间时,能逐步展示推理过程。
美国知名半导体分析机构SemiAnalysis分析师在今年1月份发布的报告中写道:“R1模型中最有意思的部分,或许就在于用推理模型的输出对一些非推理的小模型进行微调,使它们转变为具备推理能力的模型。”
除了价格低廉外,DeepSeek还把R1推理模型作为教师,发布其他开源模型的蒸馏版本。DeepSeek的全尺寸模型以及Llama的最大版本规模太过庞大,仅有特定硬件能支持模型运行,而蒸馏技术也有助于解决这一问题。图灵资本(Touring Capital)合伙人萨米尔·库马尔(Samir Kumar)表示:“经过蒸馏的模型体积更小、参数更少、内存占用更低,甚至可以在手机或边缘设备上运行。”
DeepSeek的突破性在于,经过蒸馏的模型性能并未因规模缩减而下降,反而有所提升。
蒸馏技术最早出现在2015年,源于谷歌人工智能元老杰夫·迪恩(Jeff Dean)、杰弗里·辛顿(Geoffrey Hinton)以及谷歌DeepMind研究副总裁奥里奥尔·维尼亚尔斯(Oriol Vinyals)共同撰写的一篇论文中。维尼亚尔斯近期透露,该论文曾被NeurIPS顶会拒稿,理由是该技术“对领域影响有限”。十年后,蒸馏技术却突然成为AI讨论的核心议题。与过去相比,如今蒸馏技术的威力提升源于可用作教师模型的开源模型在数量与质量上的飞跃。今年1月份,IBM LLM Granite技术管理总监凯特·索尔(Kate Soule)在播客中表示:“DeepSeek通过MIT许可开源迄今最强大的模型,星空体育网址实质上正在侵蚀各大厂商守护核心模型的紧闭大门。”
蒸馏技术的应用边界索尔提到,互联网开源模型库Hugging Face平台上充斥着诸如Meta Llama和阿里巴巴Qwen等传统模型的蒸馏版本。实际上,Hugging Face存储的约150万个模型中,有3万个名称中带有“distill”字样,这通常表明它们经过了蒸馏。但目前尚无蒸馏模型进入Hugging Face的榜单前列。正如实体店里的一元店,蒸馏技术虽具顶尖性价比,但可选范围有限且存在缺陷:专精某项任务的蒸馏模型在其他领域的表现可能会弱化。
苹果公司研究人员曾尝试构建“蒸馏扩展定律”,通过教师模型的规模、目标模型规模和算力投入等参数预测蒸馏效果。他们发现,在特定条件下,当使用高质量的教师模型时,蒸馏效果优于传统的监督学习,但当教师模型过大时,性能提升将停滞。
尽管如此,这一技术仍有助于缩短从概念到原型的距离,普遍降低人工智能创业门槛。但多位人工智能专家强调,这种捷径并不否定昂贵基础模型的必要性,但却是动摇了大模型厂商的盈利前景。
基础模型还有出路吗?英伟达首席执行官黄仁勋在公司最新财报发布后接受采访时表示:“如今全球几乎所有AI开发者都在使用DeepSeek的R1来蒸馏新模型。”蒸馏技术带来了机遇,但对OpenAI和Anthropic等公司耗巨资开发的专有大模型构成了威胁,有可能遭到对抗。云平台Hyperbolic联合创始人张杰表示:“我认为基础模型将会越来越趋于同质化。预训练模型的能力存在天花板,我们正逼近这个极限。”张杰认为,大语言模型巨头的出路在于打造受欢迎的产品而非模型本身,这或许解释了Meta选择部分开源Llama模型的战略考量。
此外,基础模型公司还可以采用更激进的策略。匿名谷歌DeepMind研究员表示,具备推理能力的模型可以通过隐藏推理步骤或“痕迹”来防止被蒸馏。虽然OpenAI在大型o1推理模型中隐藏了完整的推理路径,但新发布的o3-mini版本则展示了这些信息。特朗普政府人工智能政策顾问戴维·萨克斯(David Sacks)在今年1月份接受采访时说:“未来几个月,头部人工智能公司将围剿蒸馏技术。”
不过,在开源人工智能的“狂野西部”,要通过限制蒸馏来遏制技术扩散谈何容易。IBM LLM Granite的索尔直言:“Hugging Face充斥着大量GPT模型生成的、未经授权的格式化训练数据集。这早已经是公开的秘密。”
03月06日,“抑”路前行 “百城万人健心跑”再启抗“郁”联合行动,皇冠买球app可以吗,188金宝博网站,ayx在哪注册,威尼斯赌城
03月06日,刚果(金)一船只倾覆致5死 35人仍失踪,哪个平台买球,云顶娱乐手机版官网首页,168体育官网入口,赌钱app手机
03月06日,水利部印发2024年水旱灾害防御工作要点,银河国际城游戏,万博体育真人游戏,话中有意,bob手机版官网APP
03月06日“荷花奖”民族舞剧《醒·狮》在香港首演 市民近距离体验道具什么app能免费打德州杏彩平台客户端130edf壹定发手机官网金狮贵宾会登录中心
03月06日辽宁沈阳现“雪人阵”2018欧冠决赛时间纬来体育下载地址天博网投赌场游戏大厅
03月06日今年以来福建莆田对台铁矿石中转量突破300万吨6566体育平台app下载沙巴体育官网推荐ylg9999官方网站赚钱斗地主……
03月06日,前三季度广西为22.6万境外来桂人员提供移动支付交易服务,杏耀平台登录注册,必发娱乐登陆,五星体育斯诺克,雷速体育最新版本闪退
03月06日,成都围棋队赢得围甲榜首大战,乐鱼体育登录,大奖快3全天计划,天博体育应用,亚星手机APP
03月06日国家矿山安监局:严厉打击“七假五超三瞒三不两包”等重大违法违规行为888集团的电子游戏官网扑克游戏下载凯发娱乐官方网站登录入口IM体育官网入口
03月06日,江苏将推动民营企业权益保障条例立法,电玩网,乐动体育网页登录,亿博体育注册送18,凯发娱乐手机登陆版
03月06日,平均批发价比年初下降24% 牛肉价格为啥“大跳水”,龙8国际线上,英亚网址,电子游戏城下载,贝博是正规平台吗
03月06日,“中国龙虾之都”江苏盱眙民俗巡游文化味浓推动高质量发展·权威发布|甘肃:连续7个季度经济增速保持在全国第一方阵,AG电子游戏平台,游艇会网址,体球网篮球比分直播,betvtor伟德下载
03月06日中法考古专家齐聚四川 共探文化遗产保护与合作2019年欧洲杯比赛结果立博直播视讯新葡亰网站怎么进入王者体育网站
03月06日“青山”变“金山” 浙江温州首次跨市域林业碳汇交易完成BB贝博德甲狼堡app彩神彩票官网app游戏竞技云顶yd1188
03月06日以色列军队袭击加沙及黎巴嫩多地 造成人员伤亡云顶娱乐网页登录入口新匍京彩票怎么下载澳门电子游艺线luck新利官网登陆
国台办回应台湾小朋友自称小当归,有什么办法不失风度的夺回电脑?“营养+运动”2024羊奶行业助力健康中国建设家庭健康主题分会在京举办完美体育下载app官网澳门棋盘best365网页版登录官网mg游戏官方
家有儿女将开拍原班人马全员回归,张博恒:有遗憾 这几天真的很累港高官称跨境旅游复常后菲律宾和泰国访客增幅显著皇冠游戏俱乐部m6米乐手机版完美平台竞技网站AG亚洲国际游戏官的网址
广东持续强降雨已致4死10失联,英雄联盟官方给陈泽刷礼物日媒:日本自民党选举对策委员长小泉进次郎辞职yabo22vip最新版APP巴黎人体育在线欧宝体育网页杏彩网页注册登录
米歇尔:投特朗普就是投票反对女性,素媛案犯擅自外出2024年,汽车企业“这一波”还会持续多久?万博官网gi83殿com正规ag线体育亚洲版
李飞开宾利,老岳爆料EDG阵容巴黎奥运会中国队首金获得者盛李豪等被记大功一定发app银河真人注册博鱼备用网址亚新体育电子网投
拒绝富翁爸爸3房1车 解清帅回应,万神殿 第二季国家金融监管总局推动国有大型保险集团发挥头雁作用成效初显能下分的电玩QB真人是什么什么app可以玩现金德州尊龙官网地址
要久久爱,张志磊点数惜败加拿大敏感技术研究机构清单包括中国机构 中方严正交涉必发888唯一官网幸运快三下载千赢国际平台网址j9九游会登入
“时间的容器”艺术展亮相法国吉美博物馆美国得克萨斯州超两百万人处于洪水警报之下