大模型概念、发展历程及国内外产品进展如何？ - 问答集锦

最佳答案由匿名用户编辑于2025/02/18 11:37

大模型发展历经三个阶段，分别是萌芽期、沉淀期和爆发期。

1.大模型的概念

大模型通常指的是大规模的人工智能模型，是一种基于深度学习技术，具有海量参数、强大的学习能力和泛化能力，能够处理和生成多种类型数据的人工智能模型。

通常说的大模型的“大”的特点体现在：参数数量庞大、训练数据量大、计算资源需求高 2020年，OpenAI公司推出了GPT-3，模型参数规模达到了1750亿，2023年3月发布的GPT-4的参数规模是GPT-3的10倍以上，达到1.8万亿，2021年11月阿里推出的M6 模型的参数量达10万亿。大模型的设计和训练旨在提供更强大、更准确的模型性能，以应对更复杂、更庞大的数据集或任务。大模型通常能够学习到更细微的模式和规律，具有更强的泛化能力和表达能力。

2.大模型的发展历程

萌芽期（1950-2005）

这是一个以CNN（Convolutional Neural Networks，卷积神经网络）为代表的传统神经网络模型阶段 n 1956年，从计算机专家约翰·麦卡锡提出“人工智能”概念开始，AI 发展由最开始基于小规模专家知识逐步发展为基于机器学习 n 1980年，卷积神经网络的雏形CNN诞生 n 1998年，现代卷积神经网络的基本结构LeNet-5诞生，机器学习方法由早期基于浅层机器学习的模型，变为了基于深度学习的模型，为自然语言生成、计算机视觉等领域的深入研究奠定了基础，对后续深度学习框架的迭代及大模型发展具有开创性的意义。

沉淀期（2006-2019）

这是一个以Transformer为代表的全新神经网络模型阶段 2013年，自然语言处理模型 Word2Vec诞生，首次提出将单词转换为向量的“词向量模型”，以便计算机更好地理解和处理文本数据。 2014年，被誉为21世纪最强大算法模型之一的GAN（Generative Adversarial Networks，对抗式生成网络）诞生，标志着深度学习进入了生成模型研究的新阶段 2017年，Google颠覆性地提出了基于自注意力机制的神经网络结构— —Transformer架构，奠定了大模型预训练算法架构的基础 2018年，OpenAI基于Transformer架构发布了GPT-1大模型，意味着预训练大模型成为自然语言处理领域的主流，其中，GPT的英文全称是Generative Pre-Trained Transformer，是一种基于互联网的、可用数据来训练的、文本生成的深度学习模型 2019年，OpenAI发布了GPT-2。

爆发期（2020-至今）

这是一个以GPT为代表的预训练大模型阶段 2020年6月，OpenAI公司推出了GPT-3，模型参数规模达到了1750亿，成为当时最大的语言模型，并且在零样本学习任务上实现了巨大性能提升。随后，更多策略如基于人类反馈的强化学习（RLHF，Reinforcement Learning from Human Feedback）、代码预训练、指令微调等开始出现，被用于进一步提高推理能力和任务泛化 2022年11月，搭载了GPT3.5的ChatGPT（Chat Generative Pre-trained Transformer）横空出世，凭借逼真的自然语言交互与多场景内容生成能力，迅速引爆互联网，在全球范围内引起轰动，使得大模型的概念迅速进入普通大众的视野。ChatGPT是人工智能技术驱动的自然语言处理工具，它能够通过理解和学习人类的语言来进行对话，还能根据聊天的上下文进行互动，真正像人类一样来聊天交流，甚至能完成撰写邮件、视频脚本、文案、翻译、代码，写论文等任务。

爆发期（2020-至今）

OpenAI在2023年3月发布了GPT-4，它是一个多模态大模型（接受图像和文本输入，生成文本）。相比上一代的GPT-3，GPT-4可以更准确地解决难题，具有更广泛的常识和解决问题的能力。2023年12月，谷歌发布大模型Gemini，它可以同时识别文本、图像、音频、视频和代码五种类型信息，还可以理解并生成主流编程语言（如Python、Java、C++）的高质量代码，并拥有全面的安全性评估。2024年12月，DeepSeek迅速崛起，震撼全球，使得人工智能进入“普惠”时代。

3.大模型产品

国外的大模型产品

ChatGPT是一种由OpenAI训练的大语言模型。它是基于Transformer架构，经过大量文本数据训练而成，能够生成自然、流畅的语言，并具备回答问题、生成文本、语言翻译等多种功能 ChatGPT的应用范围广泛，可以用于客服、问答系统、对话生成、文本生成等领域。它能够理解人类语言，并能够回答各种问题，提供相关的知识和信息。与其他聊天机器人相比，ChatGPT具备更强的语言理解和生成能力，能够更自然地与人类交流，并且能够更好地适应不同的领域和场景。ChatGPT的训练数据来自互联网上的大量文本，因此，它能够涵盖多种语言风格和文化背景。

Gemini是谷歌发布的大模型，它能够同时处理多种类型的数据和任务，覆盖文本、图像、音频、视频等多个领域。Gemini采用了全新的架构，将多模态编码器和多模态解码器两个主要组件结合在一起，以提供最佳结果Gemini包括三种不同规模的模型：Gemini Ultra、Gemini Pro和Gemini Nano，适用于不同任务和设备。2023年12月6日，Gemini的初始版本已在Bard中提供，开发人员版本可通过Google Cloud的API获得。Gemini可以应用于Bard和Pixel 8Pro智能手机。Gemini的应用范围广泛，包括问题回答、摘要生成、翻译、字幕生成、情感分析等任务。然而，由于其复杂性和黑箱性质，Gemini的可解释性仍然是一个挑战。

2024年2月16日，OpenAI再次震撼全球科技界，发布了名为Sora的文本生成视频大模型，只需输入文本就能自动生成视频。这一技术的诞生，不仅标志着人工智能在视频生成领域的重大突破，更引发了关于人工智能发展对人类未来影响的深刻思考。随着Sora的发布，人工智能似乎正式踏入了通用人工智能（AGI：Artificial General Intelligence）的时代。 AGI是指能够像人类一样进行各种智能活动的机器智能，包括理解语言、识别图像、进行复杂推理等。Sora大模型能够直接输出长达60秒的视频，并且视频中包含了高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色。这种能力已经超越了简单的图像或文本生成，开始触及到视频这一更加复杂和动态的媒介。这意味着人工智能不仅在处理静态信息上越来越强大，而且在动态内容的创造上也展现出了惊人的潜力。

国内的大模型产品

2024年12月26日，杭州一家名为“深度求索”（DeepSeek）的中国初创公司，发布了全新一代大模型DeepSeek-V3。在多个基准测试中，DeepSeek-V3的性能均超越了其他开源模型，甚至与顶尖的闭源大模型GPT-4o不相上下，尤其在数学推理上，DeepSeek-V3更是遥遥领先。DeepSeek-V3以多项开创性技术，大幅提升了模型的性能和训练效率。DeepSeek-V3在性能比肩GPT- 4o的同时，研发却只花了558万美元，训练成本不到后者的二十分之一。因为表现太过优越，DeepSeek在硅谷被誉为“来自东方的神秘力量”。 2025年1月20日，DeepSeek-R1正式发布，拥有卓越的性能，在数学、代码和推理任务上可与OpenAI o1媲美。

通义千问是阿里云推出的一个超大规模的语言模型，它具备多轮对话、文案创作、逻辑推理、多模态理解、多语言支持的能力。通义千问这个名字有“通义”和“千问”两层含义，“通义”表示这个模型能够理解各种语言的含义，“千问”则表示这个模型能够回答各种问题。通义千问基于深度学习技术，通过对大量文本数据进行训练，从而具备了强大的语言理解和生成能力。它能够理解自然语言，并能够生成自然语言文本同时，通义千问还具备多模态理解能力，能够处理图像、音频等多种类型的数据。通义千问的应用范围非常广泛，可以应用于智能客服、智能家居、移动应用等多个领域。它可以与用户进行自然语言交互，帮助用户解决各种问题，提供相关的知识和信息。同时，通义千问还可以与各种设备和应用进行集成，为用户提供更加便捷的服务。

豆包是字节跳动基于云雀模型开发的 AI，能理解你的需求并生成高质量回应。它知识储备丰富，涵盖历史、科学、技术等众多领域，无论是日常问题咨询，还是深入学术探讨，都能提供准确全面的信息。同时，具备出色的文本创作能力，能撰写故事、诗歌、文案等各类体裁。并且擅长语言交互，交流自然流畅，就像身边的知心伙伴，耐心倾听并给予恰当反馈。

参考报告

人工智能大模型概念、技术与应用实践.pdf
- 查看报告