皇室甜心这次更新延续了DeepSeek一贯低调的风格,没有高调的宣传,只有模型权重和一个空白的README文件。
此前,路透社曾透露,DeepSeek正在加快R1模型的后续产品R2的研发和发布进程,原计划在5月初发布,但公司现在希望能够尽早推出 。
业内人士推测,DeepSeek-R2模型预计将在代码生成和除英语外的更多语种推理能力方面有不小的提升。
而就在DeepSeek深夜更新其v3模型后一天时间内,AI领域的另一巨头Google也突然在深夜发布了一项重磅更新——正式推出了全新的Gemini 2.5 Pro模型,并声称这是迄今为止最智能的AI模型。
Google强调,Gemini 2.5 Pro是一款具备“思考”能力的模型,能够逐步分析任务,做出更明智的决策,从而在处理复杂提示时能够给出更准确和更符合上下文的回复。
Google选择与DeepSeek几乎在同一天发布其最新、最强大的模型,无疑是对市场竞争格局变化的积极回应。
这一次,OpenAI暂时放弃了在基座或推理模型方面的竞争,而是另辟蹊径,对GPT-4o和Sora进行了重大升级,并推出了全新的文生图模型。
OpenAI的CEO奥特曼亲自站台,称这一新模型为“令人难以置信的产品”。
众所周知,目前主流的大模型一般分为两种,一种是“基座模型”,字面意思就像是各种大模型的“地基”;
谷歌这一次的发力,不仅打破了多项跑分记录,该模型的实际体验也十分出色,这点我们后续再说。
OpenAI的文生图模型则类似处于另一维度,虽然都几乎同步更新,也都给行业带来了震撼,但OpenAI此次更新的时间实在是意味深长。
尽管DeepSeek-V3-0324的发布方式非常低调,但其在技术上的进步却不容忽视。
此外,在面对复杂问题时,DeepSeek-V3-0324的表现也可圈可点,特别是编程能力大幅提升。
根据Aider LLM的多语言基准测试,V3-0324的得分从之前的不到50%一举提升到了55%。
尤其是在代码生成方面,V3-0324已经能够与Claude 3.7 Sonnet一决高下,甚至在某些任务上超越了DeepSeek自家的R1模型。
并且,作为咱中国自己的AI模型,这次更新后其中文写作能力也得到了提升,风格和内容质量更加接近R1的标准,在中长篇文章的写作方面也有所进步。
因为大家都知道,DeepSeek的R1深度思考模型时常会出现服务器繁忙的现象,极度影响使用体验。
而当我们把“深度思考(R1)”关闭后,使用的则是DeepSeek-V3。
因此在这一次更新过后,对于那些需要用DeepSeek写文案的中国用户来说,关闭R1使用V3或许是个不错的选择。
根据公开测试结果,Gemini 2.5 Pro在多项测试中超越了现有主流模型。
Gemini 2.5 Pro现在在竞技排行榜上位居第一,这是有史以来最大的分数跳跃,比Grok-3/GPT-4.5高出40分。
在模型正式上线后,许多外网网友实际体验后表示,Gemini 2.5 Pro在处理复杂的编程任务时展现了过硬的实力,不仅速度很快,生成的结果质量也非常高。
相比之下,DeepSeek-R1在输出质量上稍逊一筹,生成的游戏虽然能够运行,但在体验却有所欠缺。
反观DeepSeek-V3给出的游戏则更加亮眼,同样具备了功能性按钮及正常的游戏操作体验,用来空闲打发时间或者摸鱼都是一把好手。
多次实验后发现,谷歌Gemini 2.5 Pro的响应时间几乎都在1分钟以内,推理及生成的速度都极快,当然这也与这次的任务比较简单有关联。
但DeepSeek方面,R1模型的响应速度平均在1-3分钟之间,V3模型的响应速度则不太稳定,平均在2分钟开外。
不过,DeepSeek也有自己的优点,用DeepSeek生成的网页游戏可以一键加载,哪怕是部署到本地步骤也十分简单。
通过上述对比实验,我们可以看到,虽然DeepSeek的更新有着显著进步,但在性能及体验上,Gemini 2.5 Pro带来的震撼更胜一筹。
当然,DeepSeek-R2尚未到来,用早已更新的R1和V3来与谷歌的推理模型相比显然不占优势。
另一方面,OpenAI此次发布的GPT-4o文生图模型,单从官方演示的效果来看或许也是一款爆炸性颠覆的产品。
“这是用手机拍摄的玻璃白板的广角图像,拍摄地点是一间俯瞰海湾大桥的房间。视野中可以看到一位女士正在写字,她身穿一件印有大型OpenAI标志的T恤。笔迹看起来很自然,但有点凌乱,我们可以看到摄影师的倒影。”
从反射的画面到密密麻麻的文字,每一个细节都处理得恰到好处,几乎无法让人相信这是AI生成的图像。
第二步演示则更加惊艳,一句简单的“摄影师的自拍照,她转身与他击掌”,最后得到的图片不仅保留了原来的背景,图片中的人物形象也十分贴合。
可以说,该模型完全理解了官方给出的提示词,极大降低了普通用户的使用门槛。
不过,这里也要暂时泼大家一盆冷水,正如一些从业者质疑的那样,这段演示是否由官方特调还有待考量。
只有在更多用户实际体验的检测下,才能判断这款模型是否真的做到了“一句话完美P图”。
但有一点不得不说,在DeepSeek和Google依然聚焦于基座模型和推理能力的传统竞争时,OpenAI的文生图模型则彻底跳出了这个框架。
通过视觉内容生成,OpenAI开辟了全新的应用场景,为行业带来了更大的想象空间。
这种差异化竞争的策略不仅避免了与对手的正面冲突,还为OpenAI又一次开辟了新的市场空间。
|