生成式人工智能落地实践路径分析

最佳答案 匿名用户编辑于2024/12/09 14:28

使用示例数据重新训练现有的大型语 言模型,从而生成使用提供的示例经过优化的新的“自定义”大型语言模型。

1.路径一: 直接使用 Azure OpenAI 模型 : 添加您的数据至 Azure OpenAI 模型

1.1 Azure OpenAI 服务上的可用模型

语言模型

微软为各行业提供四个层次的 AI 创新支持 8 GPT-4-0125-preview:GPT-4-0125-preview 已发布 , 新模型旨在减少模型未完成任务的“懒惰”情况, 及其他升级。 GPT-4:国际版 Azure OpenAI 服务的客户和合作伙伴可以申请访问 GPT-4,并开始使用 OpenAI 目前最 先进的模型构建应用。通过基于 Azure AI 优化的基础设施、企业级可用性、合规性、数据安全和隐私控 制提供的支持,以及与其它 Azure 服务的多种集成,实现您的大模型应用架构。 GPT-4-Turbo:GPT-4 Turbo 功能更强大,模型信息更新到 2023 年 4 月。它具有 128K 上下文窗口, 因 此您可以使用 RAG(检索增强生成)等技术,基于企业用例所需的自定义数据定制应用程序。 GPT-3.5-Turbo:GPT-3.5-Turbo 现已更新至 1025 版本。

Assistants API

客户可以开启 Code Interpreter, Function calling 等工具在自己的应用程序内构建 拥有指令的 AI 助手 , 并利用模型、工具和知识来响应用户查询。Azure Assistants API 目前已支持代码解释器和函数调用,检索功能将很快发布。

TTS 模型

OpenAI 的 TTS 模型在 AOAI 和 Azure AI Speech 同时上线。新的 TTS 模型能生成 6 种预设不同个性和风格的人类品质语音。

多模态模型

GPT-4-Turbo with Vision:GPT-4 Turbo with Vision 是由 OpenAI 开发的大型多模 态模型(LMM),支持图像分析并能对图像有关问题生成文本响应。它结合了自 然语言处理和视觉理解能力。GPT-4 Turbo with Vision达到了图像理解的先进水平。 它不仅仅能够识别图片中的对象,更注重理解上下文和细节,比如创建详细的图 像标题、提供丰富的上下文描述、回答关于视觉内容的问题或分配智能标签。

微调

Azure OpenAI 服 务 推 出 了 三 款 模 型 的 Fine-tuning 功 能(Babbage-002、 Davinci-002 和 GPT-3.5-Turbo)。用户可以使用 Azure OpenAI 服务或 Azure 机器学习对 Babbage/Davinci-002 和 GPT-3.5-Turbo 进行 Fine-tuning。GPT3.5-Turbo 1106 模型已支持 fine-tuning, 同时 Training 和 Hosting 的成本比 GPT3.5-Turbo 都降低 50%。Babbage-002 和 Davinci-002 支持 completion,Turbo 支持对话式交互。通过几个简单的命令,您就可以指定基本模型、提供数据、 进行训练和部署。

图像

DALL·E 3:DALL ·E 3 是一种支持文本提示的图像生成模型,助力用户探索创意表达 的新领域,通过语言和视觉艺术的交融提供独特的体验。提示越详细,图像效果就 越好。您甚至可以在已创建的图像中添加文本。

1.2 添加您的数据

Azure OpenAI Service on your data,基于这项全新 功能,用户可以使用自己的数据驱动 OpenAI 模型, 无需训练或微调,即可释放全部数据潜力。 Azure OpenAI Service on your data 能够获取并打通 所有来源的数据。无论数据是存储在本地还是云端, 该功能将提供无缝连接以解锁数据的全部潜力。借助 这一先进工具,您可以高效处理、组织、优化数据, 获得有价值、高质量的洞察。同时,用户友好的 API 和 SDK,将与您的现有系统轻松集成;定制化示例 应用程序助力快速部署。此外,数据共享和利用也将 变得更轻松,您可以在企业内部或面向客户快速实现 信息分发。

Azure OpenAI Service on your data连接多个数据源, 包括: ■ Azure 认知搜索索引:您可以将数据连接到 Azure 认知搜索索引,实现与 OpenAI 模型的无缝集成。 ■ Azure Blob 存储容器:将数据连接到 Azure Blob 存储容器,使用 Azure OpenAI 服务轻松获取数据, 用于后续的分析和对话。 ■ 本地文件:连接您的 Azure AI 门户文件,为数 据连接提供灵活性和便利性。数据在摄取、切分之 后,将导入 Azure 认知搜索索引。txt、md、html、 Word 文件、PowerPoint、PDF 等格式的文件都可以 用于分析和对话。

使用 Azure OpenAI 服务数据支持的步骤如下: ■ 连接数据源:使用 Azure AI Studio 连接您所需的 数据源,可通过 Azure 认知搜索索引、Blob 存储容器、 上传本地文件等途径完成连接。 ■ 基于数据进行提问和聊天:基于数据进行提问 和聊天:连接数据源之后,您就可以通过 Azure AI Studio,向 OpenAI 模型提问和对话。这将使您获得 有价值的洞察,并在大量信息的支撑下做出商业决策。

1.3 结合 Azure OpenAI 的 Embedding

嵌入向量生成模型 将企业现有的结构化知识库与提示词引擎结合起来,让 GPT 模型生成更正确、更稳定、更可靠的结果。 Embedding 是一种特殊的数据表示格式,机器学习模型和算法可以轻松使用。 Embedding 是一段文本的语 义含义的信息密集表示。Embedding 支持在 Azure 数据库中进行矢量相似性搜索,例如 Azure Cosmos DB for MongoDB vCore 或 Azure Database for PostgreSQL - 灵活服务器。

2.路径二 :Prompt engineer 提示工程优化

在 AI 领域,特别是在大型语言模型中,提示指的是用户为引起特定类型的响应而给出的输入或指令。要充分 利用 GPT-4 等大型语言模型,就必须精心设计能产生有效结果的提示。挑战在于如何选择词语、表达方式、 符号和结构的最佳组合,以引导模型生成准确而贴切的内容,包括回答问题、以最喜欢的作家的口吻创作故事、 创作诗歌、执行代码相关的任务等。 提示有助于 AI 明确用户意图和对其生成内容的期望,更精确的提示会带来更准确、相关性更强的结果。 需要注意的是,相似的提示可能会引发不同的响应,这取决于底层模型、训练数据,甚至是用户请求措辞的细 微变化。

 

3.路径三 基于现有模型进行 Fine-tuning 微调

 什么是 Fine-tune 微调 Fine-tuning 是开发人员和数据科学家用来定制大型语言模型,以满足特定任务需求的方法之一。与“检索增 强生成”(Retrieval Augmented Generation,RAG)和“提示工程”等方法通过在提示中注入正确的信息和 指令不同,Fine-tuning 则是通过对大型语言模型本身进行个性化定制来实现的。 Azure OpenAI 服务和 Azure 机器学习提供了监督式 Fine-tuning,允许您提供自定义数据(提示 / 补全或对话 式聊天,具体取决于选择的模型),以教授基本模型新的技能。

 何时应该使用微调 在开始使用 Fine-tuning 之前,我们建议您首先尝试提示工程或 RAG(检索增强生成)——这是最快的入手方式。 微软提供了如 Prompt Flow 或 On Your Data 工具来使此过程变得更简单。您可以在需要 Fine-tuning 模型的场 景下进行比较,以选择从提示工程还是 RAG 开始入手。大多数模型都会结合提示工程和 Fine-tuning,从而避 免浪费精力。

想要了解何时 / 是否应该进行 Fine-tuning ? 一些基本规则可以为您提供指导: 1. 如果您希望简单而快速地获取结果,请不要立即 开始使用 Fine-tuning:因为这需要大量的数据和时 间来训练和评估新模型。如果时间有限,通常只需通 过提示工程即可取得相当大的进展。 2. 如果您需要最新或域外数据,这是使用 RAG 和提 示工程的完美用例。 3. 如果您希望确保您的模型具有良好的基础,避免 产生幻觉(hallucinations),那么 RAG 在这方面表 现出色。

可以考虑使用 Fine-tuning 的场景包括: 1. 教会模型一项新技能,以便它在特定任务上表现 出色,如分类、摘要或始终以特定格式或语调进行回 应。有时,通过 Fine-tuning 较小的模型,也能使其 在特定任务上与较大的模型一样出色。 2. 通过示例向模型演示如何执行某些操作,但在提 示中很难解释清楚,或者示例太多,上下文窗口中无 法容纳。这些场景有很多边缘情况,比如自然语言查 询,或者教模型用特定的声音或语调说话。 3. 减少延迟。较长的提示可能需要更长的处理时间, 而 Fine-tuning 允许您将这些较长的提示集成到模型 本身中。

4.路径四: 训练您的自有模型

如果您决定训练您的自有模型,Azure 云端大规模 AI 算力平台是您最佳的合作伙伴! 先进 AI,离不开算力基础设施、服务与专业知识。我们将微软过去十年的超级计算经验和支持超大型 AI 训练 工作负载的经验应用于搭建具备规模化高性能的 AI 基础架构。 您可以在 Azure AI Studio 中使用预构建和可自定义的 AI 模型,开发生成式 AI 解决方案和自定义 copilot。

现在 Azure AI 模型目录中添加了新的基础和生成式 AI 模型。在 Hugging Face 中,我们引入了一系列不同的 稳定扩散模型、falcon 模型、CLIP、Whisper V3、BLIP 和 SAM 模型。此外,我们还添加了 分别来自 Meta 和 NVIDIA 的 Code Llama 和 Nemotron 模型,以及微软研究的尖端 Phi 模型。模型目录中新增了 40 个新模型和 4 种新模式,包括文本到图像和图像嵌入模型。 借助我们的模型即服务,专业开发人员很快就能轻松集成最新的 AI 模型,例如 Meta 的 Llama 2、Cohere 的 Command、G42 的 Jais 以及 Mistral 的高级模型作为 API 端点到应用程序中。他们还可以使用自己的数据微 调这些模型,Azure 庞大的 GPU 基础设施能力,将帮助您降低配置 GPU 资源和管理托管的复杂性。