7月6日,WAIC 2024国际AI安全前沿技术论坛在上海世博中心举行,由上海人工智能实验室(上海AI实验室)、美国人工智能安全中心(Center for AI Safety, CAIS)主办,人工智能安全中心(CAIS)主任Dan Hendrycks、上海AI实验室主任助理、领军科学家乔宇教授出席论坛并致辞。
乔宇教授表示,随着AI技术的快速发展,AI安全问题已成为全球关注的焦点。当前,相比于AI在其他能力上的发展,在AI安全方面的发展相对滞后,迫切需要增加投入,多维度探索构建AI安全的scaling law来应对不断增长的风险。为应对全球性的AI安全和治理问题,乔宇教授呼吁加强国际交流和合作,实现AI技术与AI安全协同发展,让AI服务全人类的福祉。

在主旨演讲环节,加州大学伯克利分校教授Dawn Song发表了题为“Towards Building Safe AI: Challenges and Future Directions”的演讲,认为在 确保AI值得信赖方面我们面临许多挑战。攻击者只需要操纵模型的输入,恶意扰动的输入会导致模型行为不端。例如微调阶段中毒的数据点会导致模型整个安全对齐失效。然而,相较于攻击技术的投入和发展,防御技术则发展缓慢。Dawn Song提出“AI安全需要在机制上具备足够的韧性,以防御对抗式的攻击。(AI safety mechanism need to be resilient against adversary attacks)”,我们可以在推断期间监控模型的行为,通过主动改变模型的激活从而控制模型的行为,从以前专注于所谓的反应防御逐步转向主动防御。

上海AI实验室青年科学家邵婧发表了题为“Navigating the Hazards: Ensuring Safety Throughout the AI Life Cycle”的演讲,认为当前的安全工作主要聚焦在finetuning阶段,但从系统论的角度,仅通过finetuning环节并不能完全消除其他环节的影响,需要不同的参与者执行相应的安全技术,并对全流程进行风险管控,方能形成系统性的解决方案。目前主流的对齐方法是通过根据模型的外部反馈进行调节来完成的,容易被越狱、恶意指令微调等攻击方式绕过。邵婧团队从表征层面理解和提升模型内在安全性的工作,包括在预训练阶段探索表征层面对trustworthiness概念动态学习的过程,以及探索模型内在性格和安全能力之间的关系。此外,团队也同样关注智能体的安全性,研究多智能体交互过程中如何产生危险行为、如何引入新角色例如“警察”“医生”从类人心理学角度自动评价和治疗危险行为。

卡内基梅隆大学教授Zico Kolter远程进行了题为“AI Safety and Security in the Age of LLMs”的分享,探讨了AI安全和大语言模型(LLM)的安全挑战及其对未来AI系统的影响,认为对大模型的对抗攻击揭示了现有的大模型系统的安全缺陷,而解决这些问题正是大模型从聊天机器人走向更大系统的关键因素。
复旦大学系统软件与安全实验室的潘旭东博士发表了题为“白泽指数:语言学驱动的大模型安全合规监测技术与实践”的演讲,基于语言学的转换生成语法,复旦白泽构建的大模型靶向安全评测平台能自动生成核心语义不变,对抗强度迭代增强的风险诱导问题。复旦白泽近日发布了面向全球近30款商用大模型中文安全能力的入门、进阶、专家三等级安全基准评测集以及相应评测结果。未来复旦白泽大模型安全指数将常态化运行,可避免静态数据集老化导致的安全假象,持续监测国内外大模型安全合规能力。

多伦多大学助理教授Jimmy Ba远程发表了题为“Intriguing Properties of Scaling LLMs”的演讲,认为近几年飞速发展的语言模型给大家带来了震撼,但仍然存在严重的幻觉问题,使得基于模型表现的评测手段并不可靠。随着模型规模增大,模型对词语和段落的理解逐渐加深,能更有效地预测下一个token。最后,Jimmy讨论了与人工智能相关的伦理考虑因素和威胁模型,强调了了解人工智能的能力和局限性以防止意外后果(如说服性操纵或有害软件传播)的重要性,强调了从哲学、伦理和实践角度指导其开发和使用的必要性。
北京大学AI安全与治理中心执行主任杨耀东教授就“大语言模型可被对齐吗?”发表演讲,详尽探讨了AI对齐的多个层面,并针对每一方面提出了当前的挑战和研究成果,指出大型AI模型表现出类似胡克定律的“模型弹性”,容易抗拒现有对齐方法,因此提倡开发新的对齐范式。最后,杨教授展望了AI对齐技术的未来发展,强调这一领域对整个人类社会的广泛影响,标志着AI研究新的重要方向。

美国人工智能安全中心(CAIS)主任Dan Hendrycks远程发表了题为“Measuring and Reducing Malicious Use with Unlearning”的演讲,认为可以通过消除与有害武器相关的知识降低模型的危害性。人工智能强大的能力大幅降低了非专业设计、合成化学、生物、放射、核武器以及网络攻击武器的设计与合成的门槛,并且模型能力越强,越容易遭受到这种恶意使用,因此需要专家策划的数据集来衡量这种风险,测量模型是否具有可能导致有害结果的危险知识,在不显著影响整体模型性能的基础上有效地禁用学习到的危险知识,并抵抗对抗性攻击,从而增强模型的安全性。
加州大学伯克利分校教授Stuart Russell以视频形式深入探讨了围绕人工智能发展的复杂挑战和考虑因素,反对仅仅依靠试错的方法来保障AI的安全,主张绝对的安全,并对机器可能超越人类控制表示担忧。为了减轻这种风险,他提出了创新的AI设计,包括基于数学框架的 “博弈论” 模型,旨在与人类利益而不是预定目标保持一致。最后,Russel教授呼吁通过国际合作制定明确的规则和标准,建议成立一个AI安全协会或研究所,以促进全球合作和标准化工作。
密西根大学安娜堡分校教授Peter Railton以视频形式发表了题为“Agency and Learning”的演讲,深入探讨了人工智能的进步所带来的复杂挑战和道德困境,自主智能体的出现使智能体、学习及其与人类目标和价值观的一致性的概念变得复杂。Peter教授认为,人类可以通过创造鼓励合作的有益环境,使得人工智能可以在交互和合作中习得社交技能,与人类伦理达成一致。通过这些讨论,他总结了使人工智能与人类价值观保持一致的复杂性、跨学科合作的重要性以及AI开发伦理考虑的持续需求。
在圆桌对话环节,上海交通大学副教授陈思衡、中国信通院华东分院人工智能事业部主任常永波、复旦大学副研究员潘旭东、卡内基梅隆大学教授Zico Kolter深度探讨了在AGI时代如何保障AI安全并促进国际合作,为AI技术的健康发展和广泛应用提供了宝贵的经验和指引。

讨论认为,AI安全领域的发展目前面临模型安全风险被低估、对齐方法的研究滞后于性能研究、监控机制尚不健全、年轻群体安全意识不足、企业重视程度不够等多方面的挑战。多模态/智能体/群体智能等新技术趋势带来了表征空间宏大难以对齐、模型本身的内部属性抗拒对齐、安全评测标准建立困难等安全问题,需要通过各类途径增强安全方面的国际交流,制定人工智能产品的安全标准,共同监管AI安全,促进AI向善。
此次论坛为各国专家提供了交流平台,各界代表140余名到场参会,为各界人士深入了解了人工智能安全领域的前沿研究提供了宝贵机会。上海人工智能实验室未来将继续搭建产学研交流平台,为AI安全的技术发展和应用落地作出持续贡献。