如何对AI进行监管?

最佳答案 匿名用户编辑于2023/09/26 09:56

对于 AI 监管来说, 要从安全机制、技术手段等层面进行突围。

1. 引入安全机制

现阶段,国内 AIGC 类应用的内容安全机制主要包括:1) 训练数据清洗:训练 Al 能力的数据需要进行数据清洗,把训练库里面的有害 内容清理掉; 2) 算法备案与安全评估:AI 算法需要按照《互联网信息服务算法推荐管理规定》 进行算法备案,并提供安全评估; 3) 提示词过滤:平台需要对提示词、提示内容等进行过滤拦截,避免用户上传违 规内容; 4) 生成内容拦截:平台对 AI 算法生成的内容进行过滤拦截,避免生成有害内容; 5) 对 AI 生成内容进行显著标识:相关人工智能创作工具在生成多媒体内容时, 可添加标识元数据到多媒体文件的元数据中,使得不同的平台及工具能够互认 标识元数据。

2. 技术监管手段丰富

1)用 AI 技术来识别内容是否为 AI 生成:如人民网联合传播内容认知全国重点实 验室发布的“深度合成内容检测平台 AIGC—X,采用算法融合与知识驱动的人工智能 框架,使用深度建模来捕捉困惑度、突现频次等隐式特征,学习得到机器生成文本与人 工生成文本的分布差异。该平台可以服务于媒体和互联网平台的内容风控需求,提供 AI 生成内容标识、虚假信息识别等服务。公测数据表明,AIGC-X 对各类人工智能生成内 容平台检测的准确率均超过 90%。

技术方面,以人脸识别这一场景具体来说,可以从三方面入手: 生成瑕疵:由于相关训练数据的缺失,deepfake 模型可能缺乏一些生理常识,导致 无法正确渲染部分人类面部特征。 固有属性:指的是生成工具、摄像头光感元件固有的噪声指纹。 高层语义:检测面部动作单元(肌肉群)协调性、面部各区域朝向一致性、视频微 观连续性等方面的问题,由于这些细节建模困难、难以复制,很容易抓到把柄。

2)用 AI 技术来识别违规内容:如新华网的事实核查机器人,基于新华智云自主研 发的 AI 算法,具有文字检测、图像检测、视频检测和音频检测等四大功能,能对文本、 图像、视频、音频等多种媒介进行安全核查,规范新闻报道书写,搭建人机交互审核平 台,搭建智能高效的安全防护体系,助力企业降本增效。

3)用 AI 技术进行安全监管反欺诈: 统计分析:运用对比分析、趋势分析、分布分析、漏斗分析等数据分析手段,挖掘 数据一致性、集中性等特征发现欺诈规律,具体采用数据分析技术+客群分类+场景化先 验知识假设的技术手段,可以获取具有很好指标的模型。 规则+简单统计模型:基于用户注册、登录、消费、转账信息构建统计特征、拟合 特征和分类特征等,对接指数移动平均算法、LOF、IForest、Holt-Winters、ARIMA 算法 发现异常点。 基于欺诈知识库的有监督学习算法:从已有沉淀知识库中深度挖掘隐藏的欺诈模式, 提供在线实时预测服务。常用的算有 XGBoost、DeepFFM、XDeepFM、Wide&Deep、DIN 等。

利用机器学习改良专家规则策略:1)基于数据算法驱动,自动化调整的场景规则 集中的阈值和权重,以保障规则持续有效性。利用机器学习对于规则的规则阈值、权重 等进行修改,具体涉及特征离散化、特征选择、特征降维、权重参数回归等流程。2)发 现新规则方面,主要是基于布尔关联规则与量化关联规则使用 Apriori、FpGrowth 算法 对于数据集进行挖掘。 深度学习+时间序列检测算法:序列算法可以从较长时间窗口行为序列上识别异常。 图关联数据的挖掘算法:是一种更加广泛的数据表示方式,数据之间的关系通过图 的形式进行表达,图挖掘算法可以在短的时间截面上通过关联关系发现和识别风险。引 入关联图谱关系定义,通过共用、共享、连接指向等关系定义,构建基于不同资源维度 的复杂关系图谱,如账号图谱、设备图谱、电话号码图谱等。

4)监管大模型的自动检测工具: 伪造检测行业基础大模型:如中科睿鉴历经三年开发的伪造检测行业基础大模型。 面向公共安全、金融安全、互联网内容安全等重点行业,睿鉴逐步积累了分行业、分场 景的伪造检测能力,形成了核心技术——AI 基础设施——行业基础大模型的体系化能 力底座,参数量级达到 60 亿。新的伪造生成技术一经面世,通过微调,就可在基座模 型基础上针对性地迅速分化出相应的检测模型。

研发 AI 安全检测平台,“用 AI 检测 AI”。蚂蚁集团与清华大学联合发布针对 AIGC 大模型的全数据类型 AI 安全检测平台“蚁鉴 2.0”,其通过智能对抗技术,生成海量测 试数据集,对 AIGC 生成式模型进行交互诱导,从而找到大模型存在的弱点和安全问题, 能够识别数据安全、内容安全、科技伦理的多种风险,覆盖表格、文本、图像等多种数 据和任务类型。蚁鉴 2.0 可对大模型生成内容进行个人隐私、意识形态、违法犯罪、偏 见与歧视等数百个维度的风险对抗检测,并生成检测报告,帮助大模型更加有针对性地 持续优化。此外,为解决模型黑盒问题,蚁鉴 2.0 融入可解释性检测工具。综合 AI 技术 和专家先验知识,通过可视化、逻辑推理、因果推断等技术,从完整性、准确性、稳定 性等多个维度对 AI 系统的解释质量量化分析,帮助用户更清晰验证与优化可解释方案。