大模型概念、发展历程及国内外产品进展如何?

最佳答案 匿名用户编辑于2025/02/18 11:37

大模型发展历经三个阶段,分别是萌芽期、沉淀期和爆发期。

1.大模型的概念

大模型通常指的是大规模的人工智能模型,是一种基于深度学习技术,具有海量参数、强大的学习能力和泛化能力,能够处理和生成多种类型数据的人工智能模型。

通常说的大模型的“大”的特点体现在:参数数量庞大、训练数据量大、计算资源需求高 2020年,OpenAI公司推出了GPT-3,模型参数规模达到了1750亿,2023年3月发布的GPT-4的参数规模是GPT-3的10倍以上,达到1.8万亿,2021年11月阿里推出的M6 模型的参数量达10万亿。大模型的设计和训练旨在提供更强大、更准确的模型性能,以应对更复杂、更庞大的数据集或任务。大模型通常能够学习到更细微的模式和规律,具有更强的泛化能力和表达能力。

2.大模型的发展历程

萌芽期(1950-2005)

这是一个以CNN(Convolutional Neural Networks,卷积神经网络) 为代表的传统神经网络模型阶段 n 1956年,从计算机专家约翰·麦卡锡提出“人工智能”概念开始,AI 发展由最开始基于小规模专家知识逐步发展为基于机器学习 n 1980年,卷积神经网络的雏形CNN诞生 n 1998年,现代卷积神经网络的基本结构LeNet-5诞生,机器学习方 法由早期基于浅层机器学习的模型,变为了基于深度学习的模型, 为自然语言生成、计算机视觉等领域的深入研究奠定了基础,对后 续深度学习框架的迭代及大模型发展具有开创性的意义。

沉淀期(2006-2019)

这是一个以Transformer为代表的全新神经网络模型阶段 2013年,自然语言处理模型 Word2Vec诞生,首次提出将单词转换为 向量的“词向量模型”,以便计算机更好地理解和处理文本数据。 2014年,被誉为21世纪最强大算法模型之一的GAN(Generative Adversarial Networks,对抗式生成网络)诞生,标志着深度学习进 入了生成模型研究的新阶段 2017年,Google颠覆性地提出了基于自注意力机制的神经网络结构— —Transformer架构,奠定了大模型预训练算法架构的基础 2018年,OpenAI基于Transformer架构发布了GPT-1大模型,意味着 预训练大模型成为自然语言处理领域的主流,其中,GPT的英文全称 是Generative Pre-Trained Transformer,是一种基于互联网的、可 用数据来训练的、文本生成的深度学习模型 2019年,OpenAI发布了GPT-2。

爆发期(2020-至今)

这是一个以GPT为代表的预训练大模型阶段 2020年6月,OpenAI公司推出了GPT-3,模型参数规模达到了1750亿,成 为当时最大的语言模型,并且在零样本学习任务上实现了巨大性能提升。 随后,更多策略如基于人类反馈的强化学习(RLHF,Reinforcement Learning from Human Feedback)、代码预训练、指令微调等开始出现, 被用于进一步提高推理能力和任务泛化 2022年11月,搭载了GPT3.5的ChatGPT(Chat Generative Pre-trained Transformer)横空出世,凭借逼真的自然语言交互与多场景内容生成能 力,迅速引爆互联网,在全球范围内引起轰动,使得大模型的概念迅速进 入普通大众的视野。ChatGPT是人工智能技术驱动的自然语言处理工具, 它能够通过理解和学习人类的语言来进行对话,还能根据聊天的上下文进 行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、 文案、翻译、代码,写论文等任务。

爆发期(2020-至今)

OpenAI在2023年3月发布了GPT-4,它是一个多模态大模型(接受图像和文本输入,生成文本)。相比上一代的GPT-3,GPT-4可以更准确地解决难题,具有更广泛的常识和解决问题的能力。2023年12月,谷歌发布大模型Gemini,它可以同时识别文本、图像、音频、视频和代码五种类型信息,还可以理解并生成主流编程语言(如Python、Java、C++)的高质量代码,并拥有全面的安全性评估。2024年12月,DeepSeek迅速崛起,震撼全球,使得人工智能进入“普惠”时代。

3.大模型产品

国外的大模型产品

ChatGPT是一种由OpenAI训练的大语言模型。它是基于Transformer架构,经过大量文本数据训练而成,能够生成自然、流畅的语言,并具备回答问题、生成文本、语言翻译等多种功能 ChatGPT的应用范围广泛,可以用于客服、问答系统、对话生成、文本生成等领域。它能够理解人类语言,并能够回答各种问题,提供相关的知识和信息。与其他聊天机器人相比,ChatGPT具备更强的语言理解和生成能力,能够更自然地与人类交流,并且能够更好地适应不同的领域和场景。ChatGPT的训练数据来自互联网上的大量文本,因此,它能够涵盖多种语言风格和文化背景。

Gemini是谷歌发布的大模型,它能够同时处理多种类型的数据和任务,覆盖文本、图像、音频、视频等多个领域。Gemini采用了全新的架构,将多模态编码器和多模态解码器两个主要组件结合在一起,以提供最佳结果Gemini包括三种不同规模的模型:Gemini Ultra、Gemini Pro和Gemini Nano,适用于不同任务和设备。2023年12月6日,Gemini的初始版本已在Bard中提供,开发人员版本可通过Google Cloud的API获得。Gemini可以应用于Bard和Pixel 8Pro智能手机。Gemini的应用范围广泛,包括问题回答、摘要生成、翻译、字幕生成、情感分析等任务。然而,由于其复杂性和黑箱性质,Gemini的可解释性仍然是一个挑战。

2024年2月16日,OpenAI再次震撼全球科技界,发布了名为Sora的文本 生成视频大模型,只需输入文本就能自动生成视频。这一技术的诞生, 不仅标志着人工智能在视频生成领域的重大突破,更引发了关于人工智 能发展对人类未来影响的深刻思考。随着Sora的发布,人工智能似乎正 式踏入了通用人工智能(AGI:Artificial General Intelligence)的时代。 AGI是指能够像人类一样进行各种智能活动的机器智能,包括理解语言、 识别图像、进行复杂推理等。Sora大模型能够直接输出长达60秒的视频, 并且视频中包含了高度细致的背景、复杂的多角度镜头,以及富有情感 的多个角色。这种能力已经超越了简单的图像或文本生成,开始触及到 视频这一更加复杂和动态的媒介。这意味着人工智能不仅在处理静态信 息上越来越强大,而且在动态内容的创造上也展现出了惊人的潜力。

国内的大模型产品

2024年12月26日,杭州一家名为“深度求索”(DeepSeek)的中国初创公司, 发布了全新一代大模型DeepSeek-V3。在多个基准测试中,DeepSeek-V3的 性能均超越了其他开源模型,甚至与顶尖的闭源大模型GPT-4o不相上下,尤 其在数学推理上,DeepSeek-V3更是遥遥领先。DeepSeek-V3以多项开创性 技术,大幅提升了模型的性能和训练效率。DeepSeek-V3在性能比肩GPT- 4o的同时,研发却只花了558万美元,训练成本不到后者的二十分之一。因 为表现太过优越,DeepSeek在硅谷被誉为“来自东方的神秘力量”。 2025年1月20日,DeepSeek-R1正式发布,拥有卓越的性能,在数学、代码 和推理任务上可与OpenAI o1媲美。

通义千问是阿里云推出的一个超大规模的语言模型,它具备多轮对话、文 案创作、逻辑推理、多模态理解、多语言支持的能力。通义千问这个名字 有“通义”和“千问”两层含义,“通义”表示这个模型能够理解各种语 言的含义,“千问”则表示这个模型能够回答各种问题。通义千问基于深 度学习技术,通过对大量文本数据进行训练,从而具备了强大的语言理解 和生成能力。它能够理解自然语言,并能够生成自然语言文本 同时,通义千问还具备多模态理解能力,能够处理图像、音频等多种类型 的数据。通义千问的应用范围非常广泛,可以应用于智能客服、智能家居、 移动应用等多个领域。它可以与用户进行自然语言交互,帮助用户解决各 种问题,提供相关的知识和信息。同时,通义千问还可以与各种设备和应 用进行集成,为用户提供更加便捷的服务。

豆包是字节跳动基于云雀模型开发的 AI,能理解你的需求并生成高质量回 应。它知识储备丰富,涵盖历史、科学、技术等众多领域,无论是日常问 题咨询,还是深入学术探讨,都能提供准确全面的信息。同时,具备出色 的文本创作能力,能撰写故事、诗歌、文案等各类体裁。并且擅长语言交 互,交流自然流畅,就像身边的知心伙伴,耐心倾听并给予恰当反馈。