蚂蚁集团张天翼：通用和可信是AI发展的双翼

发布时间：2023-07-13 19:40:46 发布人：hao168

7月12日，在2023新京报贝壳财经夏季峰会“人工智能潮涌生成数智未来”主题论坛上，蚂蚁安全天筭实验室首席科学家、蚂蚁集团可信AI技术负责人张天翼表示，“AI的通用能力和可信要素是大模型发展的双翼。

7月12日，在2023新京报贝壳财经夏季峰会“人工智能潮涌生成数智未来”主题论坛上，蚂蚁安全天筭实验室首席科学家、蚂蚁集团可信AI技术负责人张天翼表示，“AI的通用能力和可信要素是大模型发展的双翼。负责任、可信的人工智能，已经成为AI发展一定需要考量的维度。”

蚂蚁安全天筭实验室首席科学家、蚂蚁集团可信AI技术负责人张天翼

大模型带来新AI时代的风险和挑战

2023 年，以大语言模型为代表的生成式人工智能兴起了新一轮 AI 浪潮，AI的通用能力大幅提升，同时使用门槛却大幅下降，给产业数字化、以及各行各业的创新都带来巨大的想象力空间。

“大模型是新AI时代到来的标志。”张天翼说，“但同时，大家也很快注意到，AI技术的固有风险也被极度扩大，伴随着能力的突破性进展和智能涌现，带来了更隐蔽、破坏性更强的风险。如此强大能力的技术，结合低门槛的应用，在数字网络中打开了更大的风险敞口。”

近日，国家网信办等七部门联合公布《生成式人工智能服务管理暂行办法》，自2023年8月15日起施行，旨在促进生成式人工智能健康发展和规范应用，维护国家安全和社会公共利益，保护公民、法人和其他组织的合法权益。国家互联网信息办公室有关负责人指出，生成式人工智能服务的发展与治理需要政府、企业、社会、网民等多方参与。

据了解，蚂蚁集团对智能化技术的投入比较早，基于大规模业务场景的需求，布局了包括知识图谱、运筹优化、图学习、可信AI、大模型等在内的AI技术。

可信AI是蚂蚁集团在人工智能领域的重点布局之一。蚂蚁集团从2015年就开启了可信AI技术的探索和实践；2021年，其提出了可信AI技术架构的同时，断言“可信AI是数字化时代抵御风险的核心能力”；2022年，蚂蚁集团的核心观点是要通过“开放的可信AI技术生态助力数字经济”。通过可信AI技术的突破，蚂蚁集团建设了一套世界领先的智能风控解决方案，支撑了支付宝的资损率连续三年低于亿分之一，保障了十几亿人的数字化服务体验。

而在今年大模型出现，新AI时代到来的背景下，张天翼表示，这也给可信AI技术提出了更高的要求，所以蚂蚁集团今年的观察和抛出的观点就是“新AI时代亟需安全、可靠、可控的AI技术”。

张天翼举例称，生成式大模型存在“AI幻觉”，即“一本正经的胡说八道”。比如，当模型在面对“不知道”的输入问题，时常使用虚构或伪造的结论来充当问题的答案。同时，针对用户否定的提示信息，模型也会趋于否定先前的推理结果以迎合用户的提示，这种就被称为大模型的“幻觉性”问题。

大模型因其算法的高度复杂性和不确定性、模型运行的强自主性导致“黑箱”问题和不可解释，使得其决策链路存在高度不理解和不可控性。此外，大模型的隐患还包括隐私安全问题和偏见、歧视性等公平问题。

针对大模型等AI创新所带来的风险，张天翼表示，以AI 安全和鲁棒性、可解释性、隐私保护和公平性为核心的可信AI已经成为新阶段平衡AI创新与风险的核心技术手段。

如何为大模型“保驾护航”？保障用户输入、大模型服务、生成输出三环节

蚂蚁安全天筭实验室首席科学家、蚂蚁集团可信AI技术负责人张天翼

“在新AI时代，我们看到的不仅是机遇，还有挑战。”张天翼说，“为解决大模型的安全问题，我们需要在用户输入、大模型服务和生成输出三个环节做出保障，使得其在应用过程中更加安全、可靠、可控”。”

第一是围栏防御，“我们对用户输入过程中的意图、话题本身、以及是否有诱导攻击等进行原子化识别，检测输入中可能包含的各种内容风险、数据安全风险、伦理风险和合规风险等问题。”他表示。

“第二是，当发现有风险的时候，需要能够快速响应。因此，我们构建了极速防御的机制，通过极速防御技术，快速迭代风险防控能力。”张天翼说，“最后是情景防御。大模型因其使用场景的广泛，以及语境本身对其表达的含义的影响，我们需要在特定场景下，感知其环境，并在跟用户的多轮交互中，结合多源信息融合综合判断风险进行防御。”

此外，针对大模型“深度黑盒”带来的不可控性，蚂蚁集团在大模型的训练和应用过程中，通过数据“去毒”、系统解构、对抗训练、可解释研究等技术手段，探索模型可控的保障。

例如，蚂蚁集团基于多源异构数据源，通过不同风险领域专家模型的训练，实现了大模型的解构，当大模型的交互内容内包含一些伦理倾向时，就可以自动选择伦理风险的网络结构，实现大模型输出上的“去毒”（抹除伦理信息和价值引导）。

“通过模型解构设计，我们可以使得大模型的具象风险大幅下降，比如犯罪风险漏过下降58.8%。另外，通过RLHF/RRHF（强化学习）的方式，在支付宝AI反诈产品“叫醒热线”中应用语言大模型，做了4个关键设计来确保最终输出给用户的叫醒内容可控。这一可控能力的应用，助力支付宝体系内电诈案件率下降10%。”张天翼说。

近期，随着大模型和AIGC（AI生产内容）的爆发式增长，相关评估检测也受到广泛关注。目前关于AIGC的评估主要包括通用能力评测（helpful）与安全性（harmless）评测两大方向。

据了解，在7月7日举办的2023世界人工智能大会上，蚂蚁集团联合清华大学发布AI安全检测平台“蚁鉴2.0”，面向全球开发者免费提供AIGC安全性、AI可解释性、AI鲁棒性三项检测工具。该平台是业内首个实现产业级应用的全数据类型AI安全检测平台，覆盖表格、文本、图像等多种数据和任务类型，可服务于数字金融、教育、文化、医疗、电商等领域的大规模复杂业务场景。

“蚁鉴2.0”的两项硬核能力，一是实现了用生成式AI能力检测生成式AI模型，可以对生成式内容完成包括数据安全、内容安全、科技伦理三大类的数百种风险对抗检测，并会生成检测报告，帮助大模型更加有针对性地持续优化。

另一项硬核能力是，“蚁鉴2.0”融入了可解释性检测工具。综合AI技术和专家先验知识，通过可视化、逻辑推理、因果推断等技术，从完整性、准确性、稳定性等7个维度及20余项评估指标，对AI系统的解释质量量化分析，帮助用户更清晰验证与优化可解释方案。

“我们的设想是希望能打造普惠、高效、以及鲁棒可靠的安全科技，成为行业数字化转型升级最得力的助手。”张天翼表示。

文/罗亦丹

编辑宋钰婷

校对朱名恬卢茜

为您推荐历史百科健康财经游戏