AI万象
美国宣布与阿联酋合作打造海外最大AI数据中心
大平台动作
OpenAI宣布向ChatGPT用户开放GPT-4.1模型
谷歌DeepMind发布编程智能体AlphaEvolve,攻克300年数学难题
8月11日生效,微软将停用公共Bing Search API服务
Stability AI发布可在手机端运行的全新音频生成模型
MiniMax发布新一代语音大模型,排名国际榜首
火山引擎发布豆包多款大模型,多模态AI矩阵加速行业智能化进程
新力量崛起
Lovart震撼发布:全球首个设计Agent,一键从创意到成品
投融资风向
Perplexity AI就140亿美元估值融资5亿美元进行后期谈判
美团领投A轮,自变量机器人连续完成两轮数亿元融资
AI万象

当地时间5月15日,美国商务部宣布与阿联酋在阿布扎比签署历史性技术合作协议,将共同打造AI数据中心园区。
该数据中心规划占地面积10平方英里(约25.9平方公里),建成后将成为美国本土以外规模最大的AI基础设施集群。
根据声明,阿联酋公司G42将在阿布扎比合作建造综合性5GW数据中心,并与多家美国公司合作运营,将为阿联酋2000英里范围内近一半的全球人口提供低延迟服务。
研究机构兰德公司分析师伦纳特・海姆(Lennart Heim)表示,该数据中心的规模比迄今为止能看到的所有其他主要人工智能基础设施都要大,足以支持250万枚英伟达B200芯片。
在此之前,阿联酋已经通过MGX、G42等主权基金投资OpenAI、xAI等美国企业。此外,微软去年还曾向G42注资15亿美元。阿联酋表示,希望到 2031 年成为人工智能领域的全球领导者。
新闻拓展:https://www.cnn.com/2025/05/15/middleeast/trump-abu-dhabi-ai-center-latam-intl
大平台动作

当地时间15日,OpenAI宣布,正式向ChatGPT用户推出GPT-4.1、GPT-4.1 mini以及GPT-4.1 nano三款人工智能模型。
OpenAI发言人表示,GPT-4.1模型将帮助软件工程师在使用ChatGPT编写或调试代码时获得更高效的支持。与GPT-4o相比,GPT-4.1在编程能力和指令执行上表现更优,且运行速度比其o系列推理模型更快。
在多个关键评测中,OpenAI表示GPT-4.1展现出强劲性能:在SWE-bench Verified软件工程基准测试中,GPT-4.1得分55%,较GPT-4o的33%提升了22%。较GPT-4.5的38%提升了17%,可以说是“4.1完胜和淘汰了4.5”。
在Scale的MultiChallenge指令执行测试中,GPT-4.1的得分为38%,其表现较GPT-4o的28%提升了10%。
此外,该模型的冗余输出也减少了50%,这一改进在早期企业用户测试中获得高度评价。
而对于对低延迟要求较高的任务,GPT-4.1 nano是OpenAI目前速度最快、成本最低的模型。它体积小巧,却具备出色的性能,支持100万 token的上下文窗口,这使得GPT-4.1 nano非常适合用于分类、自动补全等对响应速度和效率高度敏感的任务。
这三款模型均可通过ChatGPT界面左上角的“更多模型”下拉菜单选择。用户可在GPT-4.1、GPT-4.1 mini与推理模型(如 o3、o4-mini、o4-mini-high)之间自由切换,增强灵活性。
目前,OpenAI正将GPT-4.1模型向ChatGPT Plus、Pro和Team订阅用户推出。企业版与教育版用户的访问权限将在未来几周陆续开放。同时,OpenAI将GPT-4.1 mini提供给所有免费和付费用户使用。
此外,根据版本说明,OpenAI表示,GPT-4.0 mini将从ChatGPT中全面下架,所有用户将不再使用该版本。
新闻拓展:https://mp.weixin.qq.com/s/ZvPHESk-BTYqBmyMVDBkTw
大平台动作

5月14日,谷歌DeepMind在官网宣布推出用于设计高级算法的编程AI Agent——AlphaEvolve。据介绍,这款AI Agent与谷歌的大模型Gemini深度集成,能够自动评估通用算法的发现与优化,助力开发人员高效设计出优质、高效的矩阵算法。简单来说,大模型善于生成各类想法和算法,而 AlphaEvolve 则如同 “质检员”,依据特定标准判断这些想法的可行性。
为展现AlphaEvolve的能力,谷歌选择让其挑战一道有着300多年历史的数学难题——亲吻数问题。该问题最早可追溯至1694年,牛顿也曾参与辩论和研究。其难点在于确定在给定维度的空间中,最多能有多少个相同大小的球体同时与一个中心球体接触,且这些球体之间不会发生重叠。而 AlphaEvolve成功发现了由593个外层球体组成的结构型,在11维空间中建立了新的下界,超越了此前数学家们创造的纪录。
此外,AlphaEvolve还能针对复杂数学问题提出创新性解决方案。基于极简代码框架,它设计出了一种基于梯度的新型优化程序的诸多组件,并发现了多种用于矩阵乘法的新算法。例如,它找到了一种用于4x4复值矩阵乘法的算法,仅需48次标量乘法,改进了Strassen在1969年提出的算法,而Strassen算法此前被认为是该场景下的最佳算法。
据介绍,在实际应用方面,AlphaEvolve通过将大规模矩阵乘法运算拆解为更易处理的子问题,使Gemini模型架构中的核心计算效率提升了23%,整体训练时间缩短了1%,有效节省了大量成本。同时,它还能对GPU底层指令进行优化,在基于Transformer的人工智能模型中,实现了FlashAttention核心计算最高达32.5%的加速。
目前,谷歌DeepMind正在与People+AI研究团队合作,开发与AlphaEvolve交互的友好用户界面,并计划为选定的学术用户推出早期访问计划。
新闻拓展:https://mp.weixin.qq.com/s/M9muLk9Bshu_3WWoF7UFdg
大平台动作

5月13日,微软宣布将于2025年8月11日终止其公共 Bing Search API(包括 Search v7 和 Custom Search)服务,影响从免费到付费的所有用户。
微软在退休通知中明确表示,终止服务后,将禁用现有资源,同时关闭新用户的注册通道。Bing Web Search API页面已发布醒目横幅,提醒用户这一截止日期,并强调新部署已不可用。开发者必须迅速行动,寻找替代方案以维持其应用功能。
微软推荐开发者转向Azure AI Agent Service中的“Grounding with Bing Search”功能。该功能旨在为AI智能体提供实时网络数据,提升响应质量。但该替代方案并非完美,“Grounding with Bing Search”可以在生成回应时引用实时公开网络数据,但开发者和用户无法直接访问Bing搜索的原始数据内容,这意味着它无法完全替代Bing Search API的功能。
此次停用决定主要影响Bing Search F1及S1到S9资源的用户,以及Custom Search F0与S1到S4资源的用户。不过受影响的主要为Bing Search APIs的自助式或小型用户,像DuckDuckGo这样的大型客户,由于与微软签署了直接协议,仍可继续使用这些API。
值得注意的是,微软在ChatGPT于2022年首次亮相后,已将Bing Search APIs的价格提高了10倍,此次直接关闭API服务,可能是微软在AI时代对搜索服务战略调整的一部分。
此外有分析指出,微软停用Bing API可能会对正在审理中的Google搜索垄断案产生影响。
由于Google Search APIs价格昂贵且限制较多,许多开发者更倾向于使用Bing API,微软的这一决定可能会迫使Google在搜索API资源方面做出更多让步。
新闻拓展:https://mp.weixin.qq.com/s/MdWDnoEDT-83SYQJVTDy_Q
大平台动作

5月14日,科技媒体TechCrunch发布博文,报道称Stability AI推出Stable Audio Open Small,号称是市场上速度最快的“立体声”音频生成AI模型,可在智能手机上运行。
相比较Suno和Udio等其他AI音频应用,Stable Audio Open Small无需依赖云端处理,其高效设计让它能在智能手机上流畅运行。Stability AI 表示,该模型能在不到8秒的时间内,在手机上生成最长11秒的音频片段,适用于快速制作鼓点或乐器片段等音效。
在训练方面,Stability AI携手芯片制造商Arm,针对Arm CPU特别优化,可以在智能手机上离线运行;在训练数据集方面,不同于Suno和Udio等竞争对手(据称使用了含版权内容的数据,存在知识产权风险),全部来自Free Music Archive和Freesound免版税音频库。
该模型并非没有局限性。Stable Audio Open Small仅支持英文提示输入,Stability在其文档中指出,该模型无法生成逼真的人声或高质量歌曲。公司还警告称,由于训练数据偏向西方风格,模型在不同音乐类型上的表现并不均衡。
此外使用条款较为严格:研究人员、爱好者及年收入低于100万美元的企业可免费使用,但超过这一收入门槛的开发者或组织需购买Stability AI的企业许可证。
新闻拓展:https://mp.weixin.qq.com/s/pXFAfmIIQQffmxO8emFxLQ
大平台动作

近日,MiniMax发布了新一代语音大模型Speech-02。该模型在两份国际权威语音评测榜单Artificial Analysis(人工分析)和Hugging Face TTS Arena(抱抱脸文本转语音竞技场)上双双排名榜首。
据介绍,Speech-02在字错率、相似度等语音模型的核心指标上取得了SOTA(在特定任务或领域中表现最佳)结果。用户盲听主观评价反馈也更自然、真实。
与Seed-TTS、CosyVoice 2和真实音频比,Speech-02在中英文的零样本语音克隆中均实现了更低的WER,表明其发音错误率更低且更清晰稳定。在SIM方面,Speech-02在所有24种测试语言中均显著优于ElevenLabs的multilingual_v2模型,前者生成的语音更逼近真人输出。
基于超强技术与足够泛化的模型能力,Speech-02为用户带来超拟人、个性化、多样性的语音服务。Speech-02通过「文生音」功能给定自然语言文本描述生成符合描述的音色;通过「声音参考」功能,对任意给定语音实现灵活控制,进行感情、语速、音高、语种等无缝切换;同时支持粤语、葡萄牙语、法语等32个语种,甚至在同一段语音里也可以实现多个语种间的自如切换。
值得关注的是,Speech-02性能登顶同时其商用定价仅为全球头部语音模型ElevenLabs的四分之一,这一突破性定价策略,不仅大幅降低了企业采用先进语音AI技术的门槛,更为智能客服、语音交互等行业带来颠覆性变革。
新闻拓展:https://mp.weixin.qq.com/s/1pWK5Pik3Z4c1GIkNNC2oA
大平台动作

5月13日,火山引擎在“FORCE LINK AI创新巡展·上海站”上,正式发布豆包·视频生成模型Seedance 1.0 lite、豆包1.5·视觉深度思考模型,并升级豆包·音乐模型。
作为豆包视频生成模型系列的全新成员,Seedance 1.0 lite以“效果好、生成快、更便宜”为核心优势,支持文生视频、图生视频两种生成方式,可输出5秒或10秒的视频,分辨率覆盖480P和720P。该模型通过小参数量架构设计,在生成速度提升的同时,实现了影视级画质与运镜效果,显著降低企业及个人用户的创作门槛。
同期发布的豆包1.5·视觉深度思考模型(Doubao-1.5-thinking-vision-pro),以激活参数仅20B的轻量化设计,在60项公开评测中斩获38项第一,尤其在视频理解、视觉推理及GUI Agent能力上表现突出。
在视频理解方面,支持动态帧率采样,视频时序定位能力显著增强,结合向量搜索,可精准定位视频中与文本描述相对应的片段。同时,新增视频深度思考能力。模型学习了数万亿多模态标记数据,掌握广泛视觉知识,结合强化学习,使视觉推理能力大幅提升。
此外,该模型新增GUI Agent能力。基于强大的GUI定位性能,可在PC端、手机端等不同环境中完成复杂交互任务。例如,可对新开发的APP功能进行自动化检测,目前该功能已经应用于字节跳动多款APP产品的开发测试中。
本次大会上,豆包·音乐模型迎来升级,不仅支持英文歌曲创作,还可以通过理解视频,自动适配纯音乐BGM。目前豆包·音乐模型已全量上线,个人和企业用户可在海绵音乐、火山引擎官网体验。
新闻拓展:https://mp.weixin.qq.com/s/Eojy5caM_YzXr565scphBw
新力量崛起

5月13日消息,一款名为Lovart的AI设计Agent正式亮相,被誉为“全球首个设计Agent”。这一产品以其从文本提示到专业视觉设计的端到端能力,引发了业内广泛关注。
Lovart的核心在于其全链路设计能力,能够将用户的模糊创意或简单文本描述转化为像素级精度的专业设计作品。根据官方介绍,Lovart集成了图像、视频和音乐生成模型,支持从任务拆解到分步骤执行的自动化流程。用户只需输入一句话指令,例如“为初创公司设计品牌标识”,Lovart即可在数分钟内生成完整的品牌视觉方案,包括Logo、配色方案、品牌指南,甚至营销素材。
与传统AI生成工具不同,Lovart无需用户手动调整复杂提示词或依赖插件。其智能调度系统能够自动调用合适的模型和参数,确保设计结果符合专业标准。
依托先进的多模态AI技术,Lovart不仅能理解设计原则,还能根据用户需求动态调整输出风格,精准捕捉用户意图,生成高度定制化的视觉内容。
此外,Lovart支持实时协作功能,允许多名用户在单一画布上与AI共同创作。这一特性尤其适合团队头脑风暴或跨部门协作场景,大幅提升了设计效率。
对于市场来说,Lovart最大的特点是实现了AI的“后退一步”,AI不再直接输出成品,而是能够加入人工控制与编辑,使得很多场景可以真正落地。
新闻拓展:https://mp.weixin.qq.com/s/SUa1Mwd4lAsOU-d_IOFZug
投融资风向

5月12日,据媒体报道,明星人工智能搜索引擎公司Perplexity AI正在进行后期融资谈判,拟以140亿美元的估值筹集5亿美元资金。此次融资规模位于Perplexity原计划筹资金额的低端区间。此前3月媒体称,在早期谈判阶段,Perplexity曾计划以180亿美元的融资后估值筹集5亿至10亿美元。
本轮融资将由总部位于美国加州Palo Alto的风险投资公司Accel领投。本轮融资尚未最终敲定。
媒体报道称,Perplexity的年经常性收入为略低于1亿美元。
自2022年底OpenAI推出的ChatGPT引发生成式AI热潮以来,Perplexity一直站在潮流前沿。Perplexity是英伟达CEO黄仁勋最常使用的AI工具。
伴随着人工智能热潮,Perplexity的估值疯涨。去年12月,Perplexity的估值为90亿美元,是去年6月时30亿美元估值的三倍。最新的140亿美元估值虽不如3月时的预期,但也较去年底有明显上涨。
Perplexity在其即将推出的AI代理浏览器Comet上押下重注,但其在AI搜索市场中正面临日益激烈的竞争。当前,Perplexity AI正与谷歌及微软支持的OpenAI等竞争。
新闻拓展:https://mp.weixin.qq.com/s/91-W4fmTMTMaGMBGRFIX3g
投融资风向

5月12日,自变量机器人(X Square Robot)宣布完成数亿元A轮融资,由美团战投领投、美团龙珠跟投。公司表示,本轮融资将用于持续加速全自研端到端通用具身智能大模型与机器人本体的同步迭代,以及未来多个应用场景的智慧化方案合作和落地。
据悉,本轮融资已是自变量机器人第四次完成亿元级融资。今年2月,自变量机器人对外披露了光速光合、君联资本领投的数亿元Pre-A++轮融资。A轮融资前,自变量机器人还完成了由华映资本、云启资本、广发信德投资的数亿元Pre-A+++轮融资。截至目前,其累计融资金额已超10亿元,而如今距离公司成立还不到一年半。
自变量机器人于2023年12月在深圳成立,2024年3月1日设北京分公司。其业务主要聚焦于“通用具身大模型”的研发,为机器人提供通用大模型底座。公司的目标是为机器人构建一个通用的大脑-小脑系统,提供从感知到动作的端到端能力。X Square自研的机器人通用模型平台,是多模态大模型、机器人控制大模型(Large Manipulation Model)、机器人本体的结合。目前团队自研的基础模型已经达到世界先进水平,可以训练机器人完成复杂而精细的物理操作。
自变量机器人创始人兼CEO王潜认为,具身智能的发展短期有赖于模型算法优势,中期依靠数据优势,长期核心在于产品优势。自变量机器人始终围绕这三大方向加深积累,并率先在国内开放性服务场景落地实践,探索不同场景下的服务闭环。王潜表示,未来的机器人技术将朝着能够执行开放环境中随机性任务的方向发展。自变量机器人希望机器人能够完成通用和复杂的任务,而不仅仅是简单的搬运。
新闻拓展:https://mp.weixin.qq.com/s/Jea7rzn5zYKP8sk0LQguOQ
信息来源:WAIC综合整理