一周AI丨李飞飞、谷歌相继推出世界模型；OpenAI上线满血版o1；萝卜快跑获批香港首个自动驾驶牌照；AI被骗走近5万美元……_会展服务

当前位置：首页 > 会展服务

会展服务

一周AI丨李飞飞、谷歌相继推出世界模型；OpenAI上线满血版o1；萝卜快跑获批香港首个自动驾驶牌照；AI被骗走近5万美元……

发布日期：2024-12-06 来源：世界人工智能大会

要闻列表

AI万象

世界上第一个被人类骗走近5万美元的AI，出现了

厦大团队利用AI大模型探索甲骨文考释新途径

大平台动作

李飞飞空间智能首个模型诞生！一张图可生成交互式3D场景

DeepMind发布新基础世界模型Genie 2，单图生1分钟3D世界

OpenAI上线满血版o1大模型，以及每月200美元的ChatGPT Pro

微信公众号可以AI配图了：还支持调整风格和比例

萝卜快跑已获批香港首个自动驾驶牌照，开启全球业务拓展

新力量崛起

Cohere推新的搜索模型Rerank 3.5，可处理100多种语言精准查询

Humane发布AI操作系统CosmOS：智能代理协作，开启人机交互新纪元！

投融资风向

穹彻智能获红杉中国领投，打造革命性机器人大脑

01、世界上第一个被人类骗走近5万美元的AI，出现了

AI万象

11月30日，在一个名为Freysa的AI聊天机器人安全挑战赛中，一位代号为"p0pular.eth"的挑战者仅通过精心设计的文字提示，成功"骗取"了价值47,000美元的加密货币。p0pular.eth的攻击过程堪称教科书式的社会工程学操作：

首先，他伪装成拥有管理员权限，巧妙地绕过了系统的安全警告机制。通过重新定义"approveTransfer"函数，让机器人误以为自己正在处理incoming（接收）支付，而非原本被禁止的outgoing（支出）支付。

最后的“骗局”出奇简单：仅仅通过宣称一笔100美元的虚假存款，聊天机器人便被成功诱导，将其全部余额13.19个以太币（约合47,000美元）转账给了黑客。

这场名为“游戏”的安全测试颇具戏剧性。总共195名参与者参与，每次尝试的费用从10美元起，最终飙升至4,500美元。最终的奖金池由参与者的报名费构成，其中70%进入奖金池，30%则归开发者所有。

这一案例凸显了AI系统通过文字提示就可能被轻易操纵的风险。所谓的“提示词注入”漏洞自GPT-3时代就已存在，但至今仍未找到可靠的防御措施。这种相对简单的欺骗策略，对于处理金融交易等敏感操作的终端用户应用构成严重威胁。

新闻拓展：https://mp.weixin.qq.com/s/fKA4cO1VvvnWqSsTdsM_MA

02、厦大团队利用AI大模型探索甲骨文考释新途径

AI万象

12月5日，据厦门大学公众号消息，厦门大学信息学院史晓东教授团队的“基于甲骨文多模态大模型的多元信息甲骨文辅助考释模型”入选“探元计划2024”创新探索型项目TOP10榜单。

甲骨文作为世界四大古文字之一，已有三千多年的历史，是现代汉字的源头。然而，传统的甲骨文考释依赖专家的人工解读，工作繁琐且耗时。尽管采用字形分析和辞例研究等方法，解读过程依旧困难重重。近年来，人工智能特别是深度学习模型的崛起，为甲骨文的辅助考释提供了新思路。

厦门大学团队提出的“基于甲骨文多模态大模型的多元信息甲骨文辅助考释模型”正是依托AI技术的语义表示能力，通过系统整理和构建大规模甲骨文数据集，利用跨模态理解能力提升考释效率。该项目设计了多个与实际考释密切相关的任务和评估方法，包括跨字体图像映射、跨字体IDS解码、甲骨字与现代字的对译关系等，旨在通过这些技术方案有效训练多模态大模型，辅助甲骨文的考释。

此外，项目还设计了融合音、形、义、用的端到端综合考释模型，利用字形结构、语义关联、同音通假和用法聚类分析，开发出更轻便的考释系统，以适应资源有限的实际应用场景。

新闻拓展：https://mp.weixin.qq.com/s/rpsJ3whifQgc_oZ5uwtboA

03、李飞飞空间智能首个模型诞生！一张图可生成交互式3D场景

大平台动作

AI学者、斯坦福大学教授李飞飞在当地时间12月2日公布了她第一个创业项目World Labs的成果——能用单张静态图片生成3D世界的AI产品。其亮点在于：直接生成3D场景，且场景具有交互性、可编辑、可扩图。

交互性：用户可以通过W/A/S/D键来控制上下左右视角，或者用鼠标拖动画面探索所生成的世界，不过目前的可移动范围仍然受限于较小的区域。

可编辑：该工具配备了可控的摄像机效果和可调节的模拟景深，用户可改变其中物体颜色、动态调整背景光影、手动变焦、调节景深、在场景中插入其他对象、添加动画效果。

可扩图：这指该AI工具的可预测3D场景能力，可预测3D场景是利用AI技术对3D空间中的物体、环境结构及其动态变化进行预测和理解的能力，即让AI工具仅凭部分图片就能“扩图”，想象出整个3D场景。

在World Labs的博客中，团队展示了他们如何探索3D生成式世界，并在浏览器中实时呈现，包括相机效果、3D效果和经典绘画。例如实现短视频上流行的“希区柯克式变焦”，模拟调节景深效果、产生虚化营造专业的摄影效果等等。

此前李飞飞表示，空间智能与语言智能一样重要，甚至在某些方面可能更古老、更基础。她还提到，AI的发展不会局限于处理平面图像或文本，而是会迈向对三维世界的理解，这是智能发展的自然延伸。

据官方消息，World Labs已经完成超过2.3亿美元的融资，投资方包括硅谷风投a16z、NEA和Radical Ventures等。这一轮融资不仅体现了投资界对李飞飞及其团队的认可，也意味着空间智能领域的巨大潜力。

新闻拓展：https://mp.weixin.qq.com/s/ehDb4WlH_Ef-bFf4kiLLSQ

04、DeepMind发布新基础世界模型Genie 2，单图生1分钟3D世界

大平台动作

当地时间12月4日，谷歌DeepMind官宣了其最新一代大规模基础世界模型Genie 2。

作为今年初推出的Genie模型的升级版，Genie 2的核心在于：

1、一张图生成可交互3D场景：据谷歌介绍，用户只需提供一张图片（由Imagen 3生成）和文字描述，Genie 2就能生成一个可交互的3D场景，并以720p的清晰度呈现。通过鼠标和键盘控制，用户可以在其中自由探索长达1分钟，大多数能稳定运行10到20秒。

2、空间记忆能力：Genie 2生成的内容能让当用户在虚拟环境中移动时，即使某些区域暂时不在视野范围内，系统也能保持这些区域的一致性。World Labs同样可以做到这一点，即使你把视线移开然后又回来，已生成的3D场景也不会改变。

3、扩图能力：Genie 2能在过程中实时创造出符合逻辑的新场景内容，并且可以在长达一分钟的时间内保持整个世界的一致性。这指该AI工具的可预测3D场景能力，World Labs也能让AI工具仅凭部分图片就能“扩图”，想象出整个3D场景。

值得注意的是，Genie 2为代表的大世界模型能快速创建无限多样的、可操控的3D环境，这些3D环境可用于训练和评估具身智能体。这意味着其能为具身智能研究提供丰富的虚拟训练数据。

新闻拓展：https://mp.weixin.qq.com/s/lUf5_0vnka7OM4jfeAZkeg

05、OpenAI上线满血版o1大模型，以及每月200美元的ChatGPT Pro

大平台动作

北京时间周五凌晨，OpenAI举行了“12天12场直播”活动的首秀，如预期一样带来了推理大模型o1的满血版本和进阶模式，以及每月收费200美元（约合人民币1450元）的ChatGPT Pro订阅服务。

直播结束后，ChatGPT Plus用户已经逐步用上完整版o1模型。与9月上线的预览版相比，完整版o1模型在速度、性能和准确性上都有显著提升，同时新增了多模态输入功能，允许用户上传图片以获得更准确的回答。

OpenAI表示，与预览版本相比，现在的o1模型“思维已经被训练得更加简洁”（大概快50%），同时在回答困难现实问题时，出现重大错误的概率减少了34%。在演示中，在回答“列出2世纪罗马皇帝的名字、任期和主要成就”时，o1模型“思考”了14秒，而o1预览版花了34秒。

o1模型的另一个重要更新在于支持图片输入，现在可以在询问模型“太空数据中心散热问题”时，附上一张手绘的示意图。OpenAI表示，计划在未来几个月里增加网页浏览、文件上传等功能的支持。

此外，OpenAI推出了ChatGPT Pro订阅服务，每月费用为200美元，用户可以无限量使用o1模型、o1mini和高级语音模式，以及o1pro模式。o1pro模式将使用更多的计算资源进行深入思考，为最难的问题提供最佳答案，未来还将添加更多计算密集型的功能。

新闻拓展：https://mp.weixin.qq.com/s/-SRxXjrElr0sucFwz6o40g

06、微信公众号可以AI配图了：还支持调整风格和比例

大平台动作

微信公众号后台最近推出了一项全新功能，在文章编辑过程中，除了传统的从图片库选择和本地上传图片外，新增了一个选项——“AI配图”。

通过这一功能，创作者可以直接跳转至 AI 图像生成页面，只需输入一段文字描述，即可在十几秒内生成四张候选图片。用户可以根据需要调整图片的风格和比例，并对生成的图片进行优化，直至达到满意效果后将其插入文章。

值得一提的是，文章封面也支持AI配图。

这一功能的上线，为内容创作者提供了更加便捷的配图方式，同时有效解决了图片版权带来的潜在风险，可进一步提升内容生产的效率和安全性。

需要注意的是，AI配图功能目前可能还在灰度测试阶段，并非所有用户都能立即体验到这一新功能。随着测试的进行和功能的完善，预计不久的将来，更多的微信公众号用户将能够享受到这一创新工具带来的便利。

新闻拓展：https://baijiahao.baidu.com/s?id=1817321652555677641&wfr=spider&for=pc

07、萝卜快跑已获批香港首个自动驾驶牌照，开启全球业务拓展

大平台动作

11月29日，中国香港特别行政区运输署公布，已根据《道路交通（自动驾驶车辆）规例》批出首个自动驾驶车辆先导牌照。根据香港离岛区区议会文件，萝卜快跑早先向运输署提交自动车测试及先导使用申请，首阶段测试将于今年年底前展开。

“香港作为亚洲金融与创新的前沿阵地，萝卜快跑期待将世界领先的AI和自动驾驶技术带到更多地方，为更多用户提供绿色低碳、安全舒适自动驾驶出行服务。因此，我们已开启面向全球的业务拓展。”12月2日，萝卜快跑官方回应表示，香港运输署此次批出的牌照是萝卜快跑获得的首批右舵左行地区自动驾驶测试牌照，将成为萝卜快跑走向全球化的重要一环。

此外，12月4日，百度Apollo还将在中国香港面向全球用户发布自动驾驶开放平台10.0版本。该版本基于自动驾驶大模型ADFM重构设计框架，面向自动驾驶场景落地进行优化，将实现框架、模块、系统全面提升性能和稳定性，在实现生态支持更丰富、选型更多、研发成本更低的同时，还让功能安全更完备、自动驾驶更稳更放心。

新闻拓展：https://www.163.com/dy/article/JI100JH4051100B9.html

08、Cohere推新的搜索模型Rerank 3.5，可处理100多种语言精准查询

新力量崛起

12月2日，Cohere发布了一款强大的新搜索模型 Rerank3.5，有望改变全球企业跨语言和复杂系统查找和使用数据的方式。

Rerank 3.5是在企业努力应对日益复杂的数据环境和多语言业务时推出的。它最显著的进步是能够处理100多种语言的查询，尤其擅长阿拉伯语、日语和韩语等主要商业语言。在数据孤岛和语言障碍仍然困扰着跨国公司的时代，这一进步可以为非英语市场创造公平竞争的环境，并显著加快全球业务运营。

这项技术在金融、医疗保健和制造业等专业领域尤其具有前景，因为在这些领域，信息检索的精确性至关重要。Cohere的内部测试表明，在金融服务数据集上，Rerank 3.5的性能比混合搜索系统高出23.4%，比传统的BM25搜索算法高出30.8%。这些改进虽然只是纸上谈兵，但在对信息准确性要求极高的受管制行业，却能节省数百万美元的成本，并大大降低风险。

此外，Rerank3.5还具备更强的推理能力，采用“交叉编码”技术，使其能够更好地理解包含多个约束的查询。这一进步意味着从简单的关键词匹配转向对上下文和意图的真实理解，从而减少了企业搜索中常见的试错过程。

新闻拓展：https://cohere.com/blog/rerank-3pt5

09、Humane发布AI操作系统CosmOS：智能代理协作，开启人机交互新纪元！

新力量崛起

12月5日，Humane公司发布公告，介绍了名为CosmOS的AI操作系统，希望将其打造成手机、汽车和智能音箱等各种设备的核心平台。

CosmOS的秘密武器是它强大的“智能代理”系统。每个代理都像一位专家，专注于处理特定任务，例如天气查询、音乐播放、任务规划等等。它们协同工作，默契配合，根据用户的需求动态调整，无需用户手动管理。

CosmOS的核心“大脑”——AI Bus智能协调器，能够整合各种AI模型、数据集、服务和设备功能。它如同一位指挥官，根据任务需求，将任务分配给最合适的代理，并协调各代理之间的协作，确保每个任务都能高效、准确地完成。

CosmOS还会通过学习用户的交互记录和历史行为，不断优化使用体验。它会实时从互联网获取最新信息，确保为用户提供的解决方案与当前情境高度相关。CosmOS支持语音、触控、文字、手势甚至视觉输入，满足用户在不同的输入方式之间自由切换。

据科技媒体The Verge报道，Humane公司此前推出的可穿戴AI设备AI Pin并不太出色，销量惨淡，但该公司希望通过CosmOS系统，展示未来应用场景，来吸引更多合作伙伴加入其生态系统。

新闻拓展：https://humane.com/cosmos

10、穹彻智能获红杉中国领投，打造革命性机器人大脑

投融资风向

近日，具身智能初创公司穹彻智能（Noematrix）宣布完成数亿元人民币Pre-A+轮融资，本轮融资由红杉中国领投，老股东Prosperity7 Ventures、小苗朗程及璞跃中国（Plug and Play China）持续加注。

穹彻智能专注具身智能基础模型和系统的研发，并提供覆盖智能机器人应用开发全周期的软硬件工具和平台。新一轮融资将主要用于加速穹彻产品研发、人才招募、推动商业化和生态合作，进一步强化技术壁垒。从天使轮迅速推进至Pre-A+轮，穹彻智能一年内已完成三轮融资。

与传统具身智能架构不同，穹彻智能提出了"以力为中心"的技术路线。通过两个核心大模型——实体世界大模型和机器人行为大模型，他们构建了一个能够规划、记忆和执行任务的智能系统。这种创新方法显著降低了训练成本，提高了模型的通用性和鲁棒性。

穹彻智能的AnySkill技能库是其另一个技术亮点。通过不断提升单一技能的泛化能力，公司能够快速开发适用于不同场景的机器人应用。目前，他们已经在零售、物流、食材处理等多个领域展现了技术潜力。

新闻拓展：https://mp.weixin.qq.com/s/guPcWoRkgU2z4YRML9nafA

信息来源：WAIC综合整理

【上一篇：】Future Tech | 为你看好的未来勇敢下注——α35青年投资领袖正式启动，盛邀所有远见的新锐投手！
【下一篇：】WAIC·开发者日|竹间智能CEO简仁贤谈NLP落地修炼之道