数字员工3.0研发模式分析 - 问答集锦

最佳答案由匿名用户编辑于2024/11/18 16:44

数字员工3.0新的研发模式围绕 “敏捷化、标准化”，打造面向开发态的研发中心和面向运行态的服务中心。

1.建设创新工厂，以敏捷化研发中心打造数字员工能力基石

按照零代码、低代码研发思路，打造全链路安全、敏捷、易用的研发工作站，沉淀数据与模型两大基础工程能力，组装通用/专用AI技能流水线，并建立智能体开发流水线，三者结合，实现数字员工的模型构建流程化、服务组装积木化、数字员工生产工业化，大幅提升研发效能。

1、基础工程流水线：融合用数赋智能力，提升模型训练效率数字员工在金融行业的能力提升依赖于持续的学习和训练，需要不断利用大量的人类行为数据和专业知识进行浇灌，以便更好地模拟和理解人类员工的行为方式以及金融行业的专业技能。为此，围绕数据和模型两大基础核心能力，建设基础工程流水线，沉淀数据引入、数据清洗、数据标注、算法选择、模型训练、模型评估、模型部署等用数赋智的通用技术模块，规避公共组件重复建设。通过DataOps和LLMOps的工程化融合，提升数据工程的效率，降低模型训练的技术门槛，确保数字员工在金融领域应用的快速迭代和优化。

2、通用/专业技能流水线：多样化AI技能生产线，为数字员工3.0提供拟人化能力支撑数字员工的建设，需要运用智能决策、知识图谱、OCR、生物识别、语音合成、语音克隆、自由式对话、知识检索、数据分析等多种 “看、听、想、说、做”智能化技术，并根据业务需求提供定制化组装。为此，结合领域特色，建立通用+专用结合的全领域AI技能流水线，支持开箱即用以及按需求灵活组装，为智能体开发提供智能化技术支持。其中，机器学习流水线为数字员工提供基于结构化数据的决策能力；计算机视觉、语音识别流水线为其提供配合神经中枢处理非结构化数据的感知能力；自然语言处理流水线为数字员工提供认知计算和交互决策能力；数字人及语音克隆技术为其提供交互形象及语音输出能力；机器人流程自动化以及各种工具插件为数字员工提供行动执行能力。

3、数字员工组装流水线：多技术融合与规划编排，将“AI技术组合成人” 对标数字员工3.0高拟人度要求，从“AI技术组合成人”的视角，需要打造数字员工组装流水线，将感知、记忆、行动、协作、反馈五维能力以及规划编排等能力进一步优化升级，以提升数字员工3.0处理复杂和创造性问题的能力。 1）智能能力融合：五维协同，夯实数字员工能力调控引擎基础数字员工的运行基础在于构建一个高度集成的多技术融合体系，这一体系通过感知、记忆、行动、协作以及反馈的五维协同能力，使数字员工3.0应用得以向更复杂、更深入的领域拓展。

一是多模态感知能力。除传统的视觉、语音、文档感知能力，数字员工3.0需要在多模态融合感知能力上有所增强，使得数字员工自行感知用户或者环境的状态信息。通过视觉文档处理、屏幕处理、系统信息对接、语音解析、传感器感知分析等组件，来打造增强的多模态语音/视觉信息获取等能力。二是长短记忆能力。数字员工通过构建长短期记忆能力，能够跟踪用户、学习历史经验，并提取价值知识，实现记忆的有效复用，进一步提升规划和行动的依据。短期记忆可通过缓存技术存储最近的交互内容。长期记忆可通过向量数据库等用于快速检索和无限检索，使得数字员工更好地理解上下文。

三是执行能力。数字员工通过建设技能插件和工具库组件，完善手脚行动能力，实现大脑与外部服务和工具的联动，扩展大模型边界，实现复杂场景的任务执行。四是多协作能力。面对复杂任务，数字员工的交互对象从单体扩展到多体，需要协调和调度多个小模型，将复杂金融任务分解为子任务，分配给适合的小模型。有三种模式：一是串行模式，大小模型分工协作，例如大模型进行预处理和后处理，小模型执行精确评估计算。二是分流模式，大模型分流任务至小模型，如客服场景中基于意图的理解分发任务。三是协调模式，大模型协调各模型，汇总结果生成综合方案，如投顾场景中的风险分析和投资建议。

五是反馈自学习能力。数字员工通过集成反馈循环机制接收和解析用户的反馈信息，评估自身行动的效果和准确性。一方面利用自然语言处理技术分析用户的输入反馈，实现自我调整策略和行为，确保服务的持续优化和个性化。另一方面反馈数据作为下一轮训练的输入，不断迭代和提升其决策和交互质量。

2）规划、编排能力建设：动静结合，强化数字员工规划核心数字员工通过规划及编排能力将复杂分散的业务流程串联起来，从而具备解决综合性问题的能力。规划、编排能力是数字员工的调度协作中枢，是实现自主性和目标导向行为的关键，目前业界主要有动态任务规划和静态编排两类技术。一是动态任务规划。使用大语言模型作为智能体的决策核心，通过提示词的方式规范大模型对任务的理解。利用大模型将复杂任务自主分解成更小的子任务，并持续根据任务执行情况和外部反馈动态调整任务计划以接近设定目标，直到任务完成。这种模式针对非预设的任务具有更强的智能化、泛化性，但该模式需采用较大规模参数模型，以满足对复杂任务的理解和规划，由此带来大量的算力消耗。同时多轮交互任务对大模型的记忆能力及指令遵从性要求较高，当前仍有较大提升空间。动态规划当前适用于如远程银行信息查询等无固定流程且交互轮次较少的场景。

二是静态工作流编排。由于当前动态规划在场景应用上的能力不足，且金融行业大量业务场景复杂、流程固定，对流程执行的严谨性要求较高，当前业内普遍发展大模型结合静态编排模式进行能力的建设和落地。静态编排利用流程编排框架定义好工作流的各个步骤和执行顺序，并且在工作流运行时严格按规划执行。大模型在其中负责与用户的交互，理解用户意图并引导用户完成参数填充，从而进行执行分支选择。这种模式虽然交互相对固化，但能确保任务按照既定的标准操作程序执行，保障金融任务执行的严谨性和准确性，当前适用于如金融市场投资交易等流程长、任务严谨的金融场景。

在数字员工的规划编排能力建设中，应考虑动态规划和静态编排结合，通过静态编排增强场景规划的准确性、可回溯性；通过动态规划提升场景规划的灵活性、自主性。在动态规划过程中，根据用户反馈提炼沉淀静态工作流，提升规划的一致性；同时静态编排能够为动态规划提供结构化的框架，提升规划的稳定性。

3）零代码\低代码数字员工组装：低门槛开发，促进数字员工共建共享在数字员工组装方面，业务和开发人员技能水平参差不齐。根据应用场景，提供无代码和低代码模式智能体编排开发模式，打造低门槛工程化解决方案，促进数字员工开发共建，实现生态共享。一是零代码数字员工组装。面向建模人员和业务专家，通过零代码配置，完成身份人设、知识、技能插件、工作流等信息组装。二是低代码数字员工开发。该研发模式通过打造拖拉拽、可视化的工作流编排流水线，基于多种组件实现数字员工技能的自由编排，扩展性强，相关工作流可作为数字员工的技能进行复用，也可直接发布单一技能的数字员工应用。

2.建设能力枢纽，以标准化服务中心加速数字员工上岗运行

从将各种拟人化能力组合成人的视角出发，打造建设数字员工智能服务中心，通过基于智能体技术建设的统一智能服务管控框架，实现原子服务、组合服务、范式服务三类服务的统一封装、统一管理、统一编排与统一调控，解决异构AI服务的标准不统一、管理难度大等痛点，同时模拟人的行为模式，沉淀共享拟人逼真、丰富多样的AI服务能力。

1、统一的智能服务管控框架，实现服务插件化、管理集中化、编排流程化、调控统一化数字员工服务能力涉及多个异构系统，需要通过统一、便捷的方式与大模型整合成为可运行的智能体。同时还需确保各类异构服务能够灵活组装、衔接流畅，可根据业务需求被智能体快速调用。因此，建设基于智能体技术的统一的智能服务管控框架，实现服务插件化、管理集中化、编排流程化、调控统一化。一是服务插件化。建立可插拔的架构，将各个系统能力以标准化模式封装为插件的形式，以智能体单一分支行动为最小化单元进行插件的封装。插件信息采用标准化JSON进行定义，包括插件名称、插件用途、 URL等，确保功能描述规范化、接口标准化，以便于模型理解和调用。当插件被调用时，同样可基于标准化JSON进行参数定义，以便于数字员工基于不同分支选择对应的最小化单元插件完成任务。

二是管理集中化。围绕智能服务资源申请到智能服务发布的全流程，实现资源申请流程、测试流程、上线部署流程、运维流程的标准统一，并且可根据数字员工忙闲、工作负载，以数字员工为运维单位，弹性扩缩容数字员工智能服务，降低运维和准入验证人力投入成本。服务上线后，建立通用服务和领域专用服务统一管理视图，面向业务侧提供服务目录检索、服务信息查看等能力，实现各类智能服务跨部门、跨产品、跨业务条线的共享使用、运行监控。

三是编排流程化。按照“积木式组装”思想，打造低代码理念的组合服务可视化编排流水线。以人的行为模式为参照，支持用户通过拖拉拽方式实现多技术融合的拟人化智能服务分层组装，将原子服务组装为组合服务，并进一步封装为面向场景的工程化解决方案范式，最后总结提炼形成具有业务含义的数字员工智能服务策略。四是调控统一化。封装好的插件统一通过数字员工的智能体框架进行调控。将各插件以及插件能力以格式化文本的方式进行统一描述，便于大模型进行统一识别。当任务执行时，由大模型进行对话意图识别，判断需要调用的插件，再由主框架完成插件的调用和执行。

2、沉淀百模千态的数字员工智能化服务能力一是原子服务能力发布。服务中心提供一系列拟人逼真的原子服务能力。包括传统小模型的能力，如OCR、人脸识别等，还包括仅通过提示词即可获得的服务。这些服务通过标准化的方式供上层快速调用，既可直接应用，同时也可通过组装服务更为复杂的场景。二是组合服务能力发布。在原子服务的基础上，服务中心能够发布组合服务能力，这些服务由多个服务组合而成，以满足更复杂的业务需求。例如合同审核需要“看”OCR文档识别、 “想”自然语言理解等服务的组合。远程银行双录质检需要“看”视频识别、“想”图像内容识别、 “做”结果反馈等智能化服务的组合。

三是范式服务能力发布。金融应用领域多样，各场景多元化个性化需求，以不变应万变。根据技术成熟度和场景，可优先聚焦于知识检索、数据分析、文档编写等场景，总结提炼，打造工程化解决方案，促进规模化、规范化金融应用创新。例如多模态知识检索范式，依托知识库、大模型等技术，提供知识管理、知识搜索、答案生成等能力，支持各业务、科技人员通过零编码方式搭建专属知识库，只需上传制度、规范等文档，即可实现文档内容检索问答，并给出可信来源，提升专业知识获取效率。例如数据分析范式，提供对话式数据分析解决方案，帮助用户一句话实现报表查询、SQL生成、指标查询、图表绘制等，提升数据分析效率、降低数据分析门槛。

参考报告

大模型驱动的数字员工3.0建设应用白皮书：发展新质生产力开启数字金融新纪元.pdf
- 查看报告