大模型能力范围拓宽,端侧模型开始落地。
OpenAI 最新一代大模型 GPT-4o 展现出强大的多模态能力。GPT-4o 是 OpenAI 推出的最新一代大型 语言模型,它在前代模型的基础上实现了多模态能力的大幅提升,标志着从单一文本处理扩展到多模态 (包括文本、图像、声音等数据类型)理解和生成的新时代。这种跨模态的能力使得 GPT-4o 能够更全面 地理解和生成信息,不仅限于文字,还包括能够理解图片内容和进行视觉描述,甚至在一定程度上解析 音频数据。 多模态模型的发展源于现实世界数据的复杂性,信息的传递不再局限于单一形式。例如,在社交媒 体、新闻报道和学术研究中,信息往往以文本、图像和视频等多种形式共存。
GPT-4o 通过融合这些不同 类型的数据,能够提供更加丰富和精准的分析,更好地支持决策制定和创意生成。在技术实现上,GPT4o 采用了最先进的深度学习架构,包括但不限于 Transformer 网络,这种网络结构非常适合处理大规模的、 异质的数据集。此外,通过自监督学习方法,GPT-4o 能在无需显式标注的情况下,自动识别和利用来自 不同模态的数据之间的内在联系,极大地减少了模型训练所需的人工标注数据量,降低了成本并加快了 开发速度。 GPT-4o 及类似的多模态模型拓展了人工智能的应用边界,提供了一个全新的视角,即通过整合多种 感知形式的信息来更全面地理解世界,这有望推动 AI 技术在更多领域中的创新和应用。在医疗健康领域, 模型可以通过分析医疗图像和相关病历报告,协助医生进行诊断;在自动驾驶技术中,模型能够同时处 理来自车辆传感器的多种信号,如视觉、雷达和声音,以提高决策的准确性。此外,多模态 AI 在内容创 作领域同样展现出强大的能力,如自动生成配图的文章或为视频内容自动撰写脚本和评论。

经过强化学习训练的 OpenAI o1 更适合执行复杂推理任务。大语言模型本身基于 transformer 架构, 存在一定的局限性。例如逻辑性相对较弱,大语言模型在文本的理解和生成上表现出色,但是涉及到数理逻辑推理时表现仍然有待提升。信息准确性和时效性有限:大模型存在幻觉问题,可能产生误导性输 出,同时信息的及时性取决于最近一次的训练时间。2024 年 9 月,OpenAI 正式发布了名为 o1 的新模型。 OpenAI o1 与 GPT-4o 的主要区别在于它能够比其前身更好地解决复杂问题,如编码和数学,同时还能解 释其推理过程。根据 OpenAI 官方的描述,OpenAI o1 设置了奖励和惩罚机制,通过强化学习的技术训练 模型自行解决问题,它利用类似人类通过逐步解决问题方式的“思维链”处理问题。这种新的训练方法,使 得模型更加准确,减少了模型的幻觉问题。 OpenAI o1 的测试结果显示,OpenAI o1 在复杂推理任务重达到了人工智能能力的新水平。在高水平 数学竞赛 AIME 2024 的测试中,GPT4o 准确率为 13.14%,而 o1 预览版为 56.7%,o1 正式版正为 83.3%。 在代码能力测试中,GPT4o 准确率为 11.0%,o1 预览版为 62%,o1 正式版为 89%。在物理、化学和生物 学这些具有挑战性的基准任务 GPQA-diamond 上,o1 的表现超过了人类博士专家。
国内企业已经在 AI 大模型方面取得显著进步。2022 年 11月 30 日,OpenAI 发布了 ChatGPT,催生 了全球对大型模型技术的高度关注和加速发展。在这一全球趋势下,国内的 AI 公司和研究机构迅速响 应,推动了国内大模型技术的飞速发展和应用快速尝试。国内的几家领先科技公司和学术机构,如百 度、阿里、字节跳动、科大讯飞、清华大学等,已经开发出与 GPT-4 处于同能力等级的大模型,例如, 百度的文心一言 4.0、科大讯飞的星火 V3.5、智谱 ChatGLM4 等,在中文处理和理解方面有不俗的表现。 这些模型不仅在语言理解和生成任务中表现优异,还在多模态领域如视频和音乐生成方面展示了强大的 能力。 此外,中国的大模型还在开源领域取得了突破,如文生视频、文生音乐等多模态模型。通义千问与 DeepSeek 的开源,快速增强了国产大模型的开源生态。政府对 AI 技术的重视,为本土企业提供了发展大 模型的良好环境,这些因素共同推动了国内大模型技术的快速成长。
端侧模型,即在用户设备上本地运行的 AI 模型,是 AI 技术应用的一种趋势,特别是在移动设备和 物联网设备上。这些模型通过在设备上直接处理数据,可以提供更快的响应速度和更高的隐私保护。随 着硬件能力的提升和算法的优化,端侧模型正在越来越多的领域中展现出其独特的价值和广泛的应用前 景。 端侧模型的发展得益于几个关键技术的进步。首先,移动设备的处理能力有了显著提升,现代智能 手机和平板电脑的处理器接近或达到了台式机的性能水平。例如,高通、苹果和华为等公司的最新芯片 都具备处理复杂 AI 任务的能力。
其次,AI 模型的压缩技术也在不断进步,研究人员和工程师已经开发出 多种模型剪枝、量化和知识蒸馏技术,这些技术可以显著减少模型的大小,而不会过多影响其性能。 端侧模型的一个重要应用是在隐私保护方面。由于数据处理直接在本地完成,敏感信息无需上传到 云端,这减少了数据泄露的风险,并符合越来越严格的数据保护法规。此外,端侧模型还能在没有网络 连接的环境下工作,这对于那些网络连接不稳定或希望降低数据使用成本的用户尤其有价值。 当前微软、谷歌与苹果发布了各自的端侧小模型,微软的 Phi-3 的性能与 Mixtral-8x7B 相媲美。在 实际应用中,端侧 AI 模型已经被应用于多种场景,如智能家居设备中的语音助手、智能手机上的面部识 别解锁、健康监测设备中的实时数据分析等。这些应用不仅提升了用户体验,还推动了相关行业的技术 革新。随着端侧计算能力的进一步增强和 AI 技术的持续发展,端侧模型将在更多的领域中发挥重要作 用,特别是在需要实时处理和高隐私要求的应用场景中。同时,跨设备的 AI 模型协同工作也将是未来发 展的趋势之一,这将进一步拓展端侧模型的应用范围和深度。