AI万象
加州大学洛杉矶分校推出首个AI生成教材课程
教育部发布人工智能相关词汇中英对照表
大平台动作
谷歌Willow量子芯片横空出世:解决量子计算三十年难题
IBM发布光学技术关键突破,生成式AI迎来“光速时代”
OpenAI正式发布Sora,最长可生成20秒视频
亚马逊成立AGI实验室,瞄准数字世界"全能AI助手"
Midjourney推出多人协作的世界构建工具Patchwork,支持100人同一画布操作
Adobe联手MIT打造CausVid视频生成模型,视频边生成边播放,首帧延迟仅1.3秒!
新力量崛起
全球首个AI程序员Devin全面开放:可独立开发/排除bug,月费500美元
投融资风向
面壁智能获得新一轮数亿元融资,用于提速端侧大模型商业化布局
AI万象

2025年冬季加州大学洛杉矶分校(UCLA)将开设一门比较文学课程(comparative literature class),其教材、作业和助教资料均由人工智能生成。
这门课程是一门中世纪至17世纪文学概论课程,其教材由Kudu的人工智能平台生成,Kudu由UCLA物理和天文学教授Alexander Kusenko创立。据悉,这将是 UCLA人文学院第一门使用Kudu开发的教材的课程。
为了创建这些教材,教授Zrinka Stahuljak为Kudu提供了她之前课程的笔记、PowerPoint演示文稿和YouTube视频。课程创建过程可能需要三到四个月,但UCLA 表示教授的时间投入应限制在20小时以内,平台还会为此提供补偿。
Stahuljak表示,这种方法可以为她和她的助教腾出更多时间与学生密切合作,并确保更一致地交付课程材料。学生还可以向Kudu提问关于材料的问题,Kudu的答案仅来自教授提供的材料,而不是整个互联网。
新闻拓展:https://newsroom.ucla.edu/stories/comparative-literature-zrinka-stahuljak-artificial-intelligence
AI万象

近日,外语中文译写规范部际联席会议专家委员会审议通过第十六批18组推荐使用外语词中文译名。本次拟推荐使用的外语词中文译名,均为与人工智能、信息技术等相关的词条。
在新一批的推荐译名中,AES(Advanced Encryption Standard)被译为“高级加密标准”,AGI(Artificial General Intelligence)被译为“通用人工智能”,AIGC(Artificial Intelligence Generated Content)被译为“人工智能生成内容”,LLM(Large Language Model)被译为“大型语言模型”。
这些译名的选取基于专家推荐,并参考了《人工智能大语言模型技术发展研究报告(2024年)》和《算力基础设施高质量发展行动计划》等文件,同时参照了2021至2023年度新出现的字母词和全国科技名词委发布的词条。
推荐使用的外语词中文译名经过了专家函审和语料库核查等环节,专家们认为第十六批译名筛选工作细致、方法科学。在网络语料和语料库核查分析的基础上,充分征询了专家和相关行业部门的意见,确保了译名的科学性和通用性,有利于译名的推广和应用。
新闻拓展:https://mp.weixin.qq.com/s/1H00xLoJILZaWjZSM76Nig
大平台动作

当地时间周一,谷歌宣布推出最新量子芯片Willow,拥有105个量子比特,在量子纠错和随机电路采样两个基准测试中,都达到了SOTA,实现两项重大成就:
首先,使用更多量子比特进行扩展,可大幅度减少错误,解决了量子纠错领域近30年来一直试图攻克的关键难题。
另外,在标准基准计算测试中,Willow展示了非常高的性能,完成一个计算用时不到5分钟,而即使当今最快的超级计算机,完成这项计算也需要“10的25次方”年的时间,远超宇宙的年龄。
量子比特利用叠加态来进行计算,对环境扰动极其敏感。通常量子比特越多,发生的错误就越多,而新研究有助解决这一难题。这一已发布在《自然》杂志上的研究显示,在Willow芯片中使用的量子比特越多,系统的错误率越低,“取得了‘低于阈值’的历史性成就,即在增加量子比特数量的同时降低错误率”。
谷歌量子人工智能实验室创始人和领导者哈特穆特·内文说,作为第一个低于阈值的系统,这是迄今为止最可信的可扩展逻辑量子比特原型。Willow芯片的推出让量子计算向商业应用方向迈进了一大步。下一步挑战是展示量子芯片超越经典计算机,又能解决现实问题的能力。
新闻拓展:https://mp.weixin.qq.com/s/dCnSaufkJkSEdTscgrjJRg
大平台动作

当地时间12月9日,IBM公布了一种新型的聚合物光波导(PWG)技术,为共封装光学带来了革新。
IBM表示,其在光学技术领域取得了突破,可以显著改善数据中心训练和运行生成式AI模型的方式。其新型共封装光学技术基本上将光纤的功率集成到芯片上,从而以光速实现数据中心内的连接。
IBM半导体总经理穆克什·卡雷表示,电信行业在制造越来越快的芯片方面取得了重大进展。但这些芯片之间的通信速度并没有增长得那么快。计算增长的速度和芯片之间通信的速度之间存在几个数量级的差距。
他说:“从本质上讲,更基础的芯片仍然通过电进行通信。它们使用铜线。众所周知,我们最好的通信技术是光纤,这就是为什么光纤在其他地方用于长距离通信的原因。”
尽管共封装光学技术已经存在了一段时间,但IBM已经创建了新的聚合物光波导 (PWG) 技术来为共封装光学技术提供动力。PWG使芯片制造商能够在硅光子芯片的边缘添加六倍多的光纤。每根光纤的宽度约为人类头发的三倍,长度可从几厘米到几百米不等,每秒传输数兆兆位的数据。
新闻拓展:https://mp.weixin.qq.com/s/z6UPgKENn6EFAGeK2U1DSw
大平台动作

12月9日,亚马逊宣布在旧金山设立新的研发实验室——Amazon AGI SF Lab,这是该公司在人工智能领域的又一重大战略布局。
这家实验室由Adept联合创始人David Luan亲自领导,其核心目标直指打造能在数字和物理世界中“采取行动”的AI代理,并能处理跨越计算机、网络浏览器和代码解释器的复杂工作流程。
实验室将由Luan与知名机器人研究专家Pieter Abbeel共同运营,初期研究重点聚焦于几个关键方向:使AI代理能执行真实世界行动、从人类反馈中学习、自主纠正以及推断人类意图。
这家实验室将主要由Adept的员工组建,亚马逊计划在量化金融、物理和数学等领域再招募数十名研究人员。此举与今年6月Adept与亚马逊达成的技术授权协议相呼应,Luan等核心团队成员已正式加入亚马逊。
目前,“代理式AI”正成为科技行业的兵家必争之地。据Emergen Research预测,这一细分市场规模有望在年底前达到310亿美元。Capgemini的调查显示,82%的企业计划在三年内整合AI代理技术,看中的正是其可能带来的效率提升。
除了亚马逊,OpenAI、谷歌等科技巨头也在持续推进类似技术。各大厂商的共同目标,是开发出能基本独立完成任务的AI系统。
新闻拓展:https://techcrunch.com/2024/12/09/amazon-forms-a-new-ai-agent-focused-lab-led-by-adept-co-founder/
大平台动作

12月10日凌晨,OpenAI宣布,旗下视频生成模型Sora正式面向大众推出,距离该产品的首次公开预览已过去10个月。同时,公司宣布推出Sora的新版本Sora Turbo,版本将作为独立产品提供给ChatGPT Plus和Pro用户。
更高的生成质量。Sora-Turbo能够生成分辨率高达1080p的视频,并支持生成最长可达20秒的动态内容。这种优化不仅提升了生成视频的视觉细腻度,还显著增强了场景的连贯性与动态表现。
多模态输入支持。Sora-Turbo进一步扩展了输入形式,支持文本、图像以及现有视频的多模态输入。例如,用户可以上传一张静态图像为其生成动画,或对已有视频进行扩展以补全缺失帧。这种灵活性为创作者提供了更多可能性,显著拓宽了模型的应用场景。
模型架构优化。通过引入更高效的架构设计,并结合OpenAI公司的多模态处理技术,Sora-Turbo在理解和生成复杂内容方面表现得更加精准。与此同时,架构优化还提高了模型的计算效率,缩短了生成过程中的响应时间。
高完成度的产品化。除了视频生成功能,Sora-Turbo还提供了一系列实用工具,如视频元素编辑、将静态图像扩展为动态视频,以及时间轴上的剪辑与创作功能。与早期的学术雏形相比,Sora-Turbo已发展为一款高完成度的AI产品,显著提升了其在实际工作和生活场景中的应用价值。
OpenAI首席执行官Sam Altman在直播中表示,对于OpenAI而言,Sora不仅仅是一项技术,更是一种赋能创意人士的工具。
新闻拓展:https://mp.weixin.qq.com/s/_cm8Sw50XF0P2JtHGDAKKA
大平台动作

12月12日,Midjourney最新推出名为“Patchwork”的全新叙事工具,将业务拓展至AI图像创作和编辑以外的领域,目标打造AI驱动的沉浸式故事世界。
该工具适用于小说作者(用来设计故事的背景和角色)、游戏开发者(为游戏建立完整的世界观)、艺术家等,可以生成一个“世界”,任由用户构建角色、风格、背景故事等等。
Patchwork是一个基于网页的空白无限画布,该工具提供角色、事件、地点、道具等工具,并提供笔记、图像、保存、共享等功能。该工具需要用户通过Midjourney账户登录,登录后用户可以共享画布,并和最多100名用户同时操作。
在未来的更新中,Midjourney计划允许非用户查看这些创作板,以便更多的创意团体能够使用这一工具。Midjourney的V7版本也将推出,支持角色在不同图像中的一致性。此外,Midjourney的Storytelling Lab负责人Kreminski提到,Patchwork的背后有三个大型语言模型在运作,包括一个专为Midjourney定制的开源模型。
Kreminski表示,未来Patchwork有望发展为更加详细和互动的3D虚拟场景,但这一目标可能还需数年时间。与此同时,Midjourney的创始人David Holz在直播中透露,近期将推出多个个性化模型模式,让用户可以根据自己的偏好调整生成内容。
新闻拓展:https://venturebeat.com/ai/midjourney-is-launching-a-multiplayer-collaborative-worldbuilding-tool/
大平台动作

Adobe与MIT联手推出自回归实时视频生成技术——CausVid,它能以每秒9.4帧的速度实时生成高质量视频,首帧延迟仅需1.3秒!
传统的视频生成模型生成一段10秒的视频,往往需要等待好几分钟才可以开始观看。这一延迟的根本原因在于:传统视频生成模型普遍采用的双向注意力机制,每一帧都需要参考前后帧的信息。
为此,研究团队提出了一种全新的解决方案,通过蒸馏预训练的双向扩散模型(DiT),构建自回归生成模型。实验中,CausVid基于自回归生成的特性,无需额外训练就能支持多种应用,生成速度和质量均显著超越现有方法。
为了进一步提速实现实时视频生成,作者通过分布匹配蒸馏(DMD)将生成步骤从50步缩减到仅需4步。DMD是一种扩散模型蒸馏技术,将多步扩散模型转换为快速的单步生成器。DMD此前已在图像生成中取得成功,Adobe Firefly文生图的快速模式就是基于此技术。本次研究团队将其创新性地应用到视频扩散模型中,实现了显著加速。
新闻拓展:https://mp.weixin.qq.com/s/URFPaWWjIyWvwcJODDKK1A
新力量崛起

全球首个“AI程序员”Devin于12月11日全面开放,距离其初次亮相尚不到一年。其开发商Cognition Labs宣布,个人开发者和工程团队可以每月500美元获得完整访问权限,订阅还包括Slack集成、IDE扩展以及专业的技术支持。对于大型企业,公司提供定制的企业版解决方案。
Devin能够熟练运用多种编程语言、独立完成网站和应用程序的构建与部署,甚至可以自主发现并修复代码缺陷。官方表示,其已通过多家AI公司的实践性工程师面试,并成功在Upwork等自由职业平台上完成实际项目。
其采用沙盒计算环境,内置代码编辑器和浏览器,能够快速学习和适应新技术。与传统自动编程工具不同,Devin不仅能机械地执行任务,还能理解复杂的编程上下文,并根据具体需求主动调整解决方案。
Devin所具备的技能如下:
快速掌握新技术:只需阅读文档,Devin就能快速掌握不熟悉的工具和框架。
开发端到端应用:构建并部署功能齐全的网络应用程序,根据用户反馈逐步增加功能。
自动化查找Bug:Devin擅长识别、调试和修复代码问题,同时为开源和生产级软件仓库作出贡献。
AI培训:从研究资料库中获取指令,建立并微调大型语言模型。
新闻拓展:https://mp.weixin.qq.com/s/iNBwz44Y0PfNN7y4HPi8Sw
投融资风向

12月11日,面壁智能CEO李大海发出全员信,宣布公司完成新一轮数亿元融资,该轮融资由龙芯创投、鼎晖百孚、中关村科学城基金和赛富基金联合领投,北京市人工智能产业投资基金与清科创投跟投。
本轮融资后,面壁智能将进一步提速以端侧AI为代表的高效大模型商业化布局。李大海认为,行业在2024年下半年形成共识,要向更高知识密度的小模型和端侧智能发展,面壁智能提前半年多发力端侧模型,自研出面壁“小钢炮”MiniCPM。这种认知让团队构建起基本盘。
面壁智能将无限长文本、超清OCR识图、实时视频理解等首次集成到端侧,MiniCPM系列模型自今年2月发布以来,累计下载突破300万。
在端侧智能方面,面壁智能在主流消费电子硬件和新兴硬件中融入端侧AI,同时布局端云协同的未来范式,与华为云、百度智能云等达成战略合作。
新闻拓展:https://mp.weixin.qq.com/s/zesKAgrbgz4EurabEayW5g
信息来源:WAIC综合整理