【AI】马斯克带着xAI挑战“风车”

近日,马斯克的AI初创公司xAI发布了其首款多模态大模型Grok-1.5V。

这是xAI过去一个月时间里的第三个大动作。此前的3月17日,xAI开源了3140亿参数的混合专家模型Grok-1,参数量是Meta的Llama 2大模型的4倍;3月29日,xAI推出了128k长文本Grok-1.5,内容存量猛增16倍。

在特斯拉今年的表现“跌”下神坛之际,马斯克很明显将AI当成了找回战斗状态的主场,并为竞争宿敌OpenAI不断加码。

超越GPT-4V的真实世界理解力

在官方新闻稿中,xAI演示了7个Grok-1.5V案例,包括将手绘图表转换成Python代码、看食品标签计算卡路里、根据孩子的绘画讲个睡前故事、解释梗图、将表格转换成CSV格式、为生活日常问题答疑解惑、解决代码问题。

xAI官网信息显示,Grok-1.5V在多学科推理、文档理解、科学图表、表格、截图和照片等多个领域的能力均可与GPT-4V等前沿多模态模型比拼。其中最令人惊喜的,是其对真实世界物理空间的理解能力。

为评估多模态模型对于基本现实世界空间的理解能力,xAI推出了一项新的基准——RealWorldQA。该基准包含700多张图片,其中有真实世界的图像和从车辆上拍摄的匿名图像,每张图片都有一个问题和易于验证的答案。

在RealWorldQA基准测试中,Grok-1.5V在没有思维链提示、零样本设置的情况下跑分为68.7%,明显优于GPT-4V、Claude 3 Sonnet、Claude 3 Opus、Gemini Pro1.5等同类模型。

GPT-4V是OpenAI于去年9月底推出的视觉语言模型,其同样具备对真实场景的理解能力。具体来看,GPT-4V在物体检测、文本识别、人脸识别、验证码识别、地理定位等任务中表现突出,但在理解复杂图像中的空间关系、处理重叠物体、分离前景背景等方面还存在局限。

此前,已有研究验证了GPT-4V在场景理解、意图识别和驾驶决策等方面展现出了有望超越现有自主驾驶系统的能力。类似地,英伟达网红科学家Jim Fan也发现了Grok-1.5V解决自动驾驶边缘案例的潜力。

相比之下,基于自身生态的优势,Grok-1.5V在自动驾驶方面的用例也许会更早面世。Jim Fan认为,特斯拉FSD V13可能会采用Grok-1.5V使车辆能够通过“思维链”进行推理和解释,将像素到动作的映射提升为像素到语言到动作,从而提高FSD的多模态推理能力。而特斯拉高度成熟的数据管线也可以使微调Grok在多模态FSD推理上的表现碾压GPT-4V。

与OpenAI从队友变对手

在阻止谷歌收购Deepmind未果的背景下,出于对人工智能潜在威胁的担忧,2014年,马斯克出资1亿美元并聚集了Sam Altman、Ilya Sutskever等一批志同道合的人工智能技术大牛创建了OpenAI。

最初,OpenAI定位于非营利性的AI研究实验室,以开源代码对抗在人工智能领域日渐壮大的谷歌,对外宣称的目的是“推动人工智能的安全和负责任发展,防止人工智能被滥用或造成危害。”

2018年,因独立掌管和运营OpenAI的愿望落空,以及OpenAI与特斯拉在人才招聘方面的利益冲突,马斯克离开了OpenAI。

2022年,OpenAI推出的ChatGPT展现了惊人的智能水平,这引起了马斯克的警觉,他不仅在自己收购的Twitter上大声疾呼“我们需要的是TruthGPT”,更以SpaceX、Tesla和Twitter三家公司CEO的名义签署了“暂停AI大模型研发”的倡议书,但大模型之火依然越烧越旺,并在GPT-4发布后彻底点燃了全球科技企业的热情,百模大战就此开启。更让马斯克痛心的是,OpenAI在微软的影响下逐渐背离了曾经的初心,成为了一家闭源、利润最大化的公司。

打败魔法的只有魔法,马斯克决定创立一家能自己说了算的AI公司。2023年7月,xAI正式成立。马斯克表示,xAI的建立旨在回答更深层次的科学问题,用AI去帮助人们解决复杂的科学和数学问题,并理解宇宙的实质。

xAI的创始团队包括来自DeepMind、微软、OpenAI、谷歌、特斯拉、多伦多大学的12名研究人员,初期硬件储备包括马斯克从英伟达购入的数千个GPU。官网显示,xAI将成为独立于马斯克商业帝国的其他部门,但将与“X”(推特)和特斯拉密切合作。

2023年11月5日,马斯克旗下xAI团队发布其首个AI大模型产品——Grok。从成立到发布首个大模型,xAI用了不到4个月。

但这样的速度仍无法满足马斯克的需求。为追赶资金雄厚的OpenAI脚步,xAI曾在去年12月寻求通过发行股票融资至多10亿美元。今年4月初, xAI被曝正与投资者洽谈融资事宜。此次融资规模达到30亿美元,xAI投后估值将达到180亿美元。

在最新的推介文稿中,由Twitter改名而来的社交平台X成为了潜在卖点,文稿称,xAI将能够利用X的高质量数据进行训练。

目前,xAI正在训练2.0版本的Grok,预计将在5月前完成相关训练工作。马斯克称,Grok 2.0版本的性能将“好于”Open AI的GPT-4。

闭源与开源或将和谐共存

最近,李彦宏与周鸿祎的发言让开源与闭源的路线选择再度成为大模型圈的焦点话题。大模型的开源是指公开模型的源代码和训练数据,任何人都可以查看、使用。与之相反,在闭源的情况下,只有源代码所有者掌握代码修改的权力,其他人只能向其购买软件。

相比之下,开源大模型在基础模型层面降低了创业者的门槛,提供了更多个性化的选择,而闭源大模型可集中人才、资金、算力等资源不断迭代进化,大模型的性能就在二者的相互追赶中不断上升。

今年2月底,马斯克对OpenAI及其联合创始人提起诉讼,核心诉求之一就是OpenAI恢复到开源状态。或许是为了给赢得官司增加筹码,xAI随即在3月中旬开源了参数量为3140亿的Grok-1大模型,刷新了开源大模型的参数量级。

开源当天,马斯克还在X上发文讽刺OpenAI称,告诉我们更多关于OpenAI“开放”部分的信息。不过,此次Grok-1开源的程度并不算高,只开放了模型的权重和架构,并不包含论文、代码、数据、评估和适配等细节内容。

此外,Grok-1庞大的参数量也构成了开发者的使用门槛——以每个参数2字节计算,Grok-1的运行内存为628GB,至少需要8张80GB的H100显卡,需花费约300万人民币。因此,Grok-1毫不意外地成为了大厂和土豪的玩具,显卡大户扎克伯格还不忘适时调侃一句“(H100)已经让我买完了”。

然而,Grok-1并未呈现出与高昂的成本相匹配的效果,这个发布于2023年11月的大模型当时的跑分仅优于LLaMa 2 70B和GPT-3.5,与GPT-4、Anthropic的Claude 2还有明显差距。

业内有人算了笔犀利的账,Grok-1用了8倍于Mistral-8x7B的参数量、10倍于Mistral-8x7B的推理成本,仅得到了与Mistral-8x7B持平的效果。无怪乎专业人士将其戏称为“电子垃圾”,另有数据显示,订阅用户通过X Premium访问Grok的次数与时长明显低于ChatGPT、Gemini、Claude等AI聊天应用。

这也许是马斯克决定开源Grok-1的原因之一——对于这一性能并不突出的大模型来说,在难以变现的情况下,与其守着巨额沉没成本,不如用开源打响知名度,让一批开发者、企业、研究机构不断试用、开发,或许还能帮xAI成功打开局面。此前,深陷元宇宙亏损深渊的Meta就是靠开源LLaMA重新挽回了市场信心。

撇开马斯克对于安全性的担忧,截至目前,性能最领先的大模型仍出自闭源路线。分析认为,未来大模型领域将呈现出开源模型满足基本智能需求,闭源模型满足高阶需求的互补态势。而闭源+开源的混搭路线或将成为大模型厂商们的通用路线,即以性能领先的闭源大模型构建竞争壁垒,以性能一般但应用场景广泛的开源大模型向更多开发者输出底座能力。

参考资料

《马斯克新作!Grok-1.5V多模态模型发布:数字与物理世界完美融合》

新智元;

《消息称马斯克的 XAI 人工智能公司寻求30亿美元融资》IT之家;

《埃隆·马斯克开源Grok的“难言之隐”与“野望”》腾讯科技。

部分图片来源网络若涉及侵权请联系删除

撰稿:昭觉

责编:蒋欣瑶

排版:小宋

校对:小宋

关于财经光年

财经光年是由中国新锐产业资本聚合强力投关服务团队及资深财经媒体团队打造的财经新媒体和资本市场服务供应商。通过原创的财经资讯、领先的金融科技工具和创新的金融服务理念,财经光年专注于为金融机构、上市公司、投资者等资本市场各方角色提供极具价值的金融信息服务和资本市场服务。

财经光年通过旗下的“路演光年”、“资讯光年”、“光年资本”等业务平台,为资本市场各方提供包括投资者关系管理、财经资讯、投融资、家族信托及家族办公室在内的各项服务。

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

举报

评论

  • 推荐
  • 最新
empty
暂无评论