如何对AI进行监管？ - 问答集锦

最佳答案由匿名用户编辑于2023/09/26 09:56

对于 AI 监管来说，要从安全机制、技术手段等层面进行突围。

1. 引入安全机制

现阶段，国内 AIGC 类应用的内容安全机制主要包括：1) 训练数据清洗：训练 Al 能力的数据需要进行数据清洗，把训练库里面的有害内容清理掉； 2) 算法备案与安全评估：AI 算法需要按照《互联网信息服务算法推荐管理规定》进行算法备案，并提供安全评估； 3) 提示词过滤：平台需要对提示词、提示内容等进行过滤拦截，避免用户上传违规内容； 4) 生成内容拦截：平台对 AI 算法生成的内容进行过滤拦截，避免生成有害内容； 5) 对 AI 生成内容进行显著标识：相关人工智能创作工具在生成多媒体内容时，可添加标识元数据到多媒体文件的元数据中，使得不同的平台及工具能够互认标识元数据。

2. 技术监管手段丰富

1）用 AI 技术来识别内容是否为 AI 生成：如人民网联合传播内容认知全国重点实验室发布的“深度合成内容检测平台 AIGC—X，采用算法融合与知识驱动的人工智能框架，使用深度建模来捕捉困惑度、突现频次等隐式特征，学习得到机器生成文本与人工生成文本的分布差异。该平台可以服务于媒体和互联网平台的内容风控需求，提供 AI 生成内容标识、虚假信息识别等服务。公测数据表明，AIGC-X 对各类人工智能生成内容平台检测的准确率均超过 90%。

技术方面，以人脸识别这一场景具体来说，可以从三方面入手：生成瑕疵：由于相关训练数据的缺失，deepfake 模型可能缺乏一些生理常识，导致无法正确渲染部分人类面部特征。固有属性：指的是生成工具、摄像头光感元件固有的噪声指纹。高层语义：检测面部动作单元（肌肉群）协调性、面部各区域朝向一致性、视频微观连续性等方面的问题，由于这些细节建模困难、难以复制，很容易抓到把柄。

2）用 AI 技术来识别违规内容：如新华网的事实核查机器人，基于新华智云自主研发的 AI 算法，具有文字检测、图像检测、视频检测和音频检测等四大功能，能对文本、图像、视频、音频等多种媒介进行安全核查，规范新闻报道书写，搭建人机交互审核平台，搭建智能高效的安全防护体系，助力企业降本增效。

3）用 AI 技术进行安全监管反欺诈：统计分析：运用对比分析、趋势分析、分布分析、漏斗分析等数据分析手段，挖掘数据一致性、集中性等特征发现欺诈规律，具体采用数据分析技术+客群分类+场景化先验知识假设的技术手段，可以获取具有很好指标的模型。规则+简单统计模型：基于用户注册、登录、消费、转账信息构建统计特征、拟合特征和分类特征等，对接指数移动平均算法、LOF、IForest、Holt-Winters、ARIMA 算法发现异常点。基于欺诈知识库的有监督学习算法：从已有沉淀知识库中深度挖掘隐藏的欺诈模式，提供在线实时预测服务。常用的算有 XGBoost、DeepFFM、XDeepFM、Wide&Deep、DIN 等。

利用机器学习改良专家规则策略：1）基于数据算法驱动，自动化调整的场景规则集中的阈值和权重，以保障规则持续有效性。利用机器学习对于规则的规则阈值、权重等进行修改，具体涉及特征离散化、特征选择、特征降维、权重参数回归等流程。2）发现新规则方面，主要是基于布尔关联规则与量化关联规则使用 Apriori、FpGrowth 算法对于数据集进行挖掘。深度学习+时间序列检测算法：序列算法可以从较长时间窗口行为序列上识别异常。图关联数据的挖掘算法：是一种更加广泛的数据表示方式，数据之间的关系通过图的形式进行表达，图挖掘算法可以在短的时间截面上通过关联关系发现和识别风险。引入关联图谱关系定义，通过共用、共享、连接指向等关系定义，构建基于不同资源维度的复杂关系图谱，如账号图谱、设备图谱、电话号码图谱等。

4）监管大模型的自动检测工具：伪造检测行业基础大模型：如中科睿鉴历经三年开发的伪造检测行业基础大模型。面向公共安全、金融安全、互联网内容安全等重点行业，睿鉴逐步积累了分行业、分场景的伪造检测能力，形成了核心技术——AI 基础设施——行业基础大模型的体系化能力底座，参数量级达到 60 亿。新的伪造生成技术一经面世，通过微调，就可在基座模型基础上针对性地迅速分化出相应的检测模型。

研发 AI 安全检测平台，“用 AI 检测 AI”。蚂蚁集团与清华大学联合发布针对 AIGC 大模型的全数据类型 AI 安全检测平台“蚁鉴 2.0”，其通过智能对抗技术，生成海量测试数据集，对 AIGC 生成式模型进行交互诱导，从而找到大模型存在的弱点和安全问题，能够识别数据安全、内容安全、科技伦理的多种风险，覆盖表格、文本、图像等多种数据和任务类型。蚁鉴 2.0 可对大模型生成内容进行个人隐私、意识形态、违法犯罪、偏见与歧视等数百个维度的风险对抗检测，并生成检测报告，帮助大模型更加有针对性地持续优化。此外，为解决模型黑盒问题，蚁鉴 2.0 融入可解释性检测工具。综合 AI 技术和专家先验知识，通过可视化、逻辑推理、因果推断等技术，从完整性、准确性、稳定性等多个维度对 AI 系统的解释质量量化分析，帮助用户更清晰验证与优化可解释方案。

参考报告

人工智能行业专题报告：AI监管，铸就创新与安全平衡之道.pdf
- 查看报告