AI万象
广电总局发布《数字虚拟人技术要求》:应用人脸人声应告知被编辑个人
IMAX采用AI翻译技术,让每部电影都能 “说” 多种语言!
大平台动作
让游戏再次伟大!马斯克宣布xAI将创立AI游戏工作室
Stability上新:Stable Diffusion3.5 Large新增三大ControlNet功能
Runway新增视频扩展画面功能“Expand Video” 还可调整视频比例
视频会议平台Zoom宣布转型,未来将以AI为核心
360发布多模态内容创作引擎“纳米搜索”
新力量崛起
智谱AI宣布AutoGLM升级,支持自主执行超过54步长步骤操作
1行代码改进大模型训练,Llama训练速度升至1.47倍
投融资风向
打造首个AI Agent操作系统,Dev Agents获5600万美元融资,OpenAI联合创始人参投
AI万象

国家广播电视总局官网于11月28日发布通知,批准并实施了《数字虚拟人技术要求》行业标准,这一推荐性行业标准的发布,旨在规范数字虚拟人的定义、分类、应用场景、形象、驱动技术、平台能力及安全能力,适用于技术系统建设者、创作者和应用者。
《数字虚拟人技术要求》明确了四大应用场景:内容播报、交互客服、虚拟演播和内容创作,涵盖新闻资讯播报、电影电视介绍、直播带货、综艺主持、虚拟演唱会、文娱活动和用户代理虚拟分身等。
技术要求方面,标准规定数字虚拟人形象需具备全身、大半身、半身不同景别姿态,形象需完好,无扭曲、马赛克、跳帧、破损、音视频延时、口唇不一致等情况。
同时,数字人形象需符合场景任务设定,在人物形象、表情、服饰等方面得体、美观。此外,部署平台需支持数字虚拟人形象租赁、资产管理、业务服务配置及内容生产服务等。
在个人信息安全方面,《数字虚拟人技术要求》特别强调了对真实人脸、人声等生物识别信息编辑时,应告知被编辑个人并取得其单独同意。这一规定对于保护个人隐私和信息安全具有重要意义。
新闻拓展:https://www.nrta.gov.cn/art/2024/11/28/art_113_69707.html
AI万象

11月25日,IMAX宣布携手迪拜人工智能初创公司Camb.AI,为全球影院带来AI语言翻译技术。
此次合作的首要目标是将IMAX的原创内容和纪录片翻译成140种语言。不同于传统配音耗时费力的弊端,Camb.AI的DubStudio平台能够快速、高效地提供高质量翻译,同时完美保留演员的原始情感表达,极大提升了翻译效率和质量。
Camb.AI的技术方案与传统的通用AI模型截然不同,它采用参数更少、更专注的模型,确保翻译精准度,其核心技术如下:
BOLI翻译模型,能够细致地保留语言的细微差别;
MARS语音模拟系统,完美还原演员的原始情感;
20-30秒的runtime延迟完全符合标准广播要求。
IMAX 影院全球总裁马克・韦尔顿(Mark Welton)表示,这项技术将极大地促进全球优质娱乐资源的共享,让更多人享受到 IMAX 的顶级观影体验。 在打破语言壁,实现全球同步上映之外,该技术为语言服务欠缺的地区提供 IMAX 观影机会,并为独立电影提供经济高效的本地化方案。
全球对非英语内容的需求正在飙升,Netflix报告称,在过去三年中,仅在英国,非英语内容的收视率就增长了90%。到2023年,娱乐和媒体产业的价值将达到2.8万亿美元,并将继续在全球扩张。
新闻拓展:https://techcrunch.com/2024/11/25/imax-embraces-ai-to-expand-original-content-reach/
大平台动作

11月28日,埃隆·马斯克在社交媒体上宣布,其旗下的xAI公司将成立一家专注于人工智能的游戏工作室。他认为当前许多游戏工作室的收购限制了产业的创新和多样性。xAI的AI游戏工作室将致力于开发具有创新性和多样性的游戏,以满足玩家需求。
虽然目前还不清楚马斯克提到的游戏工作室会在何时成立,成立之后会开发什么样的游戏,但冠以AI之后,可能会通过先进的AI技术在游戏开发和玩家体验方面带来变化。
据悉,马斯克本人也是一位游戏方面的爱好者,他在12岁时就以500美元的价格卖出了一款他自己开发的游戏。马斯克曾公开批评《刺客信条影》采用黑人主角的选择并称“DEI将扼杀这款游戏”。近期,他还对《宣誓》在游戏中加入性别代词提出反对意见,并与该作的艺术总监发生了冲突。
新闻拓展:https://baijiahao.baidu.com/s?id=1816953574012440760&wfr=spider&for=pc
大平台动作

北京时间11月26日,Stability AI新推出Stable Diffusion 3.5 Large ControlNet三个模型:Blur、Canny和Depth。每个模型都有80亿参数。ComfyUI官方已支持。BizyAir紧随其后,已完成对应适配,供大家在云端便捷使用。
Blur模型:能够实现极高保真度的放大,包括8K和16K分辨率,非常适合将低分辨率图像平铺成大型详细视觉效果。
Canny模型:利用Canny线稿边缘图来构建生成的图像结构,这种控制类型特别适合插画、建筑等场景,并且可以适应所有风格。
Depth模型:使用DepthFM生成的深度图来引导图像生成,非常适合纹理3D主体等需要精确控制图像构图的场景。
根据Stability AI的介绍,这一模型的发布是基于其社区许可协议,允许用户在不商业化的前提下免费使用。无论是个人还是机构,都可以在科学研究等领域使用该模型,而无需支付费用。此外,对于年收入低于100万美元的小型企业和创作者,Stability AI也允许其在商业用途上免费使用该模型。这种宽松的使用条款吸引了大量用户尝试和应用这一技术。
此外,用户在使用Stable Diffusion 3.5生成的媒体作品时,可以保留其所有权,不必担心复杂的授权问题。这一举措极大地降低了使用门槛,使得更多的创作者能够利用这一先进的技术进行创作。
新闻拓展:https://mp.weixin.qq.com/s/uBKggSMQ-G6fMh-r8xrwwA
大平台动作

近日,视频生成人工智能企业Runway宣布推出其最新功能 “Expand Video”,这一创新工具将帮助用户通过简单的文本提示,轻松在原始视频画面基础上生成额外的视觉内容。用户不仅可以自由调整视频的比例,还能确保扩展后的画面在视觉效果上的统一性,提升视频的灵活性和专业性。
据Runway方面介绍,“Expand Video”功能让用户能够通过多次扩展,创造出如“快速变焦(crash zoom)”和“拉远镜头(pull-back shot)”等具有动态效果的摄像体验。这意味着,静态的视频画面可以通过这一功能转变为更加生动且富有电影感的动态序列。
官方表示,Expand Video已开始逐步推出,很快将向Gen-3Alpha Turbo中的每个人提供。
据此前报道,Runway在今年6月发布了Gen-3 Alpha视频生成模型。与其之前的旗舰视频模型Gen-2相比,该模型在生成速度和保真度方面有了“重大”改进,并且对生成视频的结构、风格和运动提供了细粒度的控制。Runway联合创始人Anastasis Germanidis表示,Gen-3的视频生成时间明显快于Gen-2。生成一个5秒的片段需要45秒,生成一个10秒的片段需要90秒。
新闻拓展:https://www.163.com/dy/article/JHNDCIU30511B8LM.html
大平台动作

11月26日,视频会议平台Zoom宣布,已正式将公司法定名称由"Zoom Video Communications Inc."变更为"Zoom Communications Inc.",并将继续向以AI为核心的“人际连接(human connection)”工作平台转型。
Zoom CEO袁征透露,2011年创办这家公司时,就致力于打造最好的视频会议解决方案。随着用户逐渐体验到将AI集成到日常工作中所带来的益处,AI技术也由曾经的“可有可无”成为了“必备”。并且他表示,“为了长期履行我们的使命,我们必须紧跟潮流、快速创新,并开发能反映客户最大需求的解决方案——我们认为这些需求在未来的工作中远远超出了视频”。
AI优先意味着Zoom将采用联合方法来构建以AI中心的工具和产品。据其介绍,Zoom开发的响应式解决方案AI Companion贯穿于Zoom Workplace中,能够让客户专注于更重要的工作,并最大限度地减少浪费在不太有意义的任务上的时间,例如总结会议任务、起草电子邮件回复等。
未来AI Companion还将转化为一个完全可定制的数字孪生体,并配备相应的企业知识,从而解放客户一整天的工作时间、让他们每周只需工作4天。
新闻拓展:https://www.zoom.com/en/blog/introducing-zoom-communications-inc/?cms_guid=false&lang=null
大平台动作

11月27日晚,360正式发布AI搜索新产品“纳米搜索”App。周鸿祎称,要让5岁孩子和80岁老奶奶都能用。
据官方介绍,纳米搜索打破传统搜索引擎“搜索后呈现网上已有的图文和视频”的固有模式,不但可以对搜索内容进行不同需求的分析,还能对搜索结果进行改写和创造。用户可通过语音提问、拍照搜索、视频上传等方式随时随地探索信息,实现“一切皆可搜索”,并可将搜索结果转为创意资源并形成视频创作,实现“搜索即创作”,从根本上改写了搜索引擎的定义和形态。
据悉,360的“纳米搜索”可以直接调用豆包、文心一言等16款大模型的能力,并配备数十款智能工具,用于写作、分析、翻译、旅游规划等场景。
据Statcounter最新数据显示,截至2024年6月,百度在中国的搜索引擎市场份额为52.79%,排名第一;必应在生成式AI的带动下获得大幅增长,份额为29.84%;搜狗排第三,份额为7.49%;360搜索排名第四,份额为3.86%。
新闻拓展:https://mp.weixin.qq.com/s/X9d1e6ADYdNpDXMn77WnWA
新力量崛起

11月29日,在智谱Agent OpenDay活动上,智谱AI的首席执行官张鹏宣布了公司旗下智能体AutoGLM的最新升级。这一升级使得AutoGLM能够支持执行超过54步的复杂操作,并且能够跨应用程序完成任务,标志着智能体技术在自主任务完成方面迈出了重要一步。
张鹏在大会现场展示了AutoGLM的新功能,速度甚至超过了人工操作。AutoGLM能够执行包括在微信上点赞评论、淘宝购物、携程预订酒店、12306购买火车票、美团点外卖等在内的多种任务。
理论上,AutoGLM能够完成人类在可视化电子设备上能做的任何操作,操作逻辑与人类相似,无需复杂的工作流搭建。
此外,张鹏还宣布AutoGLM将启动大规模内测,并计划尽快将其推向市场,成为面向消费者端的产品。同时,AutoGLM还推出了“10个亿级APP免费Auto升级”计划,旨在邀请应用程序合作伙伴共同探索AutoGLM在新场景下的应用潜力。
新闻拓展:https://mp.weixin.qq.com/s/DZHDmi9JQNX80cEuBPWC-A
新力量崛起

11月25日,拥有得州大学奥斯汀分校背景四名华人学者,提出了大模型训练优化器Cautious Optimizers,只要改一行代码,就能让大模型训练效率提升至1.47倍。在提速的同时,Cautious能够保证训练效果不出现损失,而且语言和视觉模型都适用。
Cautious Optimizers在PyTorch当中增加的一行代码,核心思路是引入实现一种掩蔽机制,从而避免参数更新的方向与当前梯度方向相悖。
为了评估Cautious Optimizers的具体效果,作者分别在语言模型Llama和视觉模型MAE上进行了试验。作者选取了60M、100M、350M和1B四种参数规模的Llama模型,在C4语料库上进行预训练。优化器选用了AdamW和Lion,以及它们对应的Cautious版本:C-AdamW和C-Lion,每个实验中进行1万步迭代。
结果C-AdamW和C-Lion在所有规模上都表现出明显的收敛加速效果。尤其是在1B规模上,相比原版的AdamW和Lion,它们的样本效率分别提高了47%和28%,这表明Cautious Optimizer能有效减少训练震荡,使收敛更平稳高效。
新闻拓展:https://mp.weixin.qq.com/s/J5pjZbPL9ij8Z5epEEUNDg
投融资风向

11月26日彭博社消息,AI Agent初创平台/dev/agents宣布获得5600万美元的种子资金。本次由科技风投公司Index Ventures、谷歌系资本CapitalG、OpenAI联合创始人Andrej Karpathy、Scale AI首席执行官Alexandr Wang等联合投资,这笔融资也是全球AI Agent领域最高的种子轮融资之一。
/dev/agents正在致力于开发一个基于云的“下一代 AI 智能体操作系统”,目标是实现“可信代理在所有设备上与用户的协作”。该公司联合创始人兼首席执行官、谷歌前Android工程副总裁David Singleton在X平台的帖子中提到,AI代理需要新的用户界面模式、重新构想的隐私模型,以及一个让开发者更简单构建实用代理的平台。
在/dev/agents的核心团队中,作为首席产品官的Hugo Barra曾是Android的公众代表,负责该项目的早期发展。他在此之后曾任职于小米,并且在Facebook的Oculus VR团队担任领导职务;首席技术官Ficus Kirkpatrick,他是早期的Android工程师,并曾在Meta担任AR和VR的副总裁;以及首席设计官Nicholas Jitkoff,他参与了ChromeOS的设计。
目前,许多科技公司如微软、谷歌和OpenAI都在积极推动AI智能体的概念,这种技术被认为是AI工具的下一个重大飞跃。这些AI智能体承诺能够在极少的人工干预下自主执行任务并做出决策。对此,Singleton在接受彭博社采访时表示:“我们可以看到AI智能体的潜力,但作为开发者,构建出好的产品实在是太困难了。” 他指出,行业亟需一个类似于Android的时刻来推动AI的发展。
新闻拓展:https://mp.weixin.qq.com/s/yuugY-rpOmqPgBYYI3ya0A
信息来源:WAIC综合整理