开源人工智能大模型发展背景及历程回顾 - 问答集锦

最佳答案由匿名用户编辑于2024/01/23 13:56

开源正成为推动人工智能大模型创新发展的关键引擎。

在人工智能大模型领域，开源能够激发技术创新活力，推动数字时代科技创新。开源汇聚众智、促进多方协同，有效实现了优势互补，激发技术创新活力。开源开放的创新模式相比于工业时代封闭专利的创新模式，更顺应数字时代技术迭代快、应用范围广的发展规律，解决单一主体创新成本过高问题，通过去中心化的异步协作激发各类主体的创新创造活力，以开放协作实现智慧累积，对创新效率和创新质量带来巨大提升。Meta 在 Llama 基础上开源 Llama2 并允许免费用于商业用途。Llama2 为初创企业和科研机构等主体提供了一个强大的免费选择，可以作为 OpenAI 和谷歌出售的专有模型的补充，有效激发了人工智能大模型共创浪潮。仅 Llama2 开源几日后，在其基础上衍生的大模型 FreeWilly2 便实现对 Llama2 的性能超越。与此同时，Llama2 凭借其开放可拓展的优势，衍生出 lawyer-llama、EduChat 等垂直领域的模型产品，加速推动人工智能大模型场景化应用创新。

大语言模型的开源推动了深度学习和人工智能的持续发展，也催生了一系列前沿探索和落地应用。2017 年，Google 发表论文“Attention is All You Need”，首次提出了 Transformer 架构，该架构成为后续人工智能大模型构建的基础。2018 年 11 月，Google 提出 SOTA NLP 预训练模型 BERT 并将其源代码开源，BERT 在 SQuAD v1.1 和 GLUE Benchmark 上得到最高水平评分。2020 年 2 月，Google 发布 T5 模型，通过 text-to-text 格式训练，可以学习通用语言表征，并通过微调适应特定任务。

2022 年 5 月，Meta AI 发布 OPT-175B 并开源了预训练模型及源代码，OPT-175B 禁止商用但允许学术单位及科研机构使用。2022 年 6 月， BigScience 社区发布 BLOOM，具备 1760 亿个参数，支持 59 种语言，旨在为公众提供 GPT3 的开源替代品。2022 年 8 月，清华大学开源中英双语预训练模型 GLM-130B，使用通用语言模型算法进行预训练。2023 年 2 月，Meta AI 开源 SOTA 基座大语言模型 LLaMA，训练数据全部来源于公开数据集，参数范围 7B-65B。2023 年 6 月，百川智能发布开源可商用大规模预训练语言模型 Baichuan-7B，支持中英双语，上下文窗口长度 4096。2023 年 10 月，智谱 AI 开源 ChatGLM3 系列模型，包括 ChatGLM3-6B（32k）、多模态 CogVLM-17B、以及智能体 AgentLM。 2023 年 12 月，阿里云在通义千问发布会上开源 Qwen-72B、Qwen-1.8B 和 Qwen-AudioQwen 3 个大模型。

随着开源人工智能大模型不断发展，由 BLOOM、LLaMA 等主流开源大模型逐渐衍生出其他开源人工智能大模型。

LLaMA： 2023 年 2 月，Meta AI 开源 SOTA 基座大语言模型，同年 7 月，Meta AI 再次发布 LLaMA 2，训练数据相较于 LLaMA 1 提升了 40%，上下文长度翻倍。同时， LLaMA 2 还允许商用，由此衍生了众多开源大模型。2023 年 3 月，斯坦福大学微调 LLaMA-7B 推出 Alpaca-7B，Alpaca 仅供学术研究使用，禁止商用。2023 年 3 月，哈工大 - 科大讯飞联合实验室发布了基于中文 LLaMA 模型和指令精调的 Alpaca 大模型 Chinese-LLaMA-Alpaca，进一步促进大模型在中文 NLP 社区的开放研究。2023 年 3 月，LMSYS Org 发布基于 LLaMA 的开源大模型 Vicuna13B，它是一个用 ShareGPT 收集的用户对话训练的开源聊天机器人。2023 年 6 月，清华大学联合面壁智能等企业推出基于 LLaMA-13B 的大模型 UltraLM-13B。2023 年 8 月，度小满研究团队开源了基于 LLaMA2-70B 进行中文增强的一系列金融大模型 XuanYuan-70B。

BLOOM： 2022 年 6 月，BigScience 社区发布 BLOOM。2023 年 5 月，度小满基于 BLOOM176B 开源千亿级中文金融大模型轩辕 (XuanYuan)。2023 年 5 月，链家科技基于 BLOOM 和 LLaMA 开源了中文对话大模型 BELLE。2023 年 6 月，虎博科技基于 GPT 和 BLOOM 两个开源模型，发布自研多模态大模型 TigerBot。大数据系统计算技术国家工程实验室团队正在研发基于 BLOOM 中文增量训练的中文基础模型 Linly-Chinese-BLOOM，包含 7B 和 175B 模型量级，可用于商业场景。

参考报告

可信开源人工智能大模型案例汇编（第一期）.pdf
- 查看报告