印度AI产业布局进展如何？ - 问答集锦

最佳答案由匿名用户编辑于2024/06/27 14:40

印度高度重视 AI 产业全方位发展，政策支持+高 AI 投资下有望迎来高速增长。

印度 AI 私人投资金额及新融资 AI 公司数量位于世界前列。根据 Stanford HAI，2013-2023 印度 AI 累计私人投资位列世界第七，为 98.5 亿美元，高于法国、韩国等发达国家，2023 年印度 AI 私人投达到 13.9 亿美元，位列世界第十，高于新加坡、日本、澳大利亚等发达国家；2013-2023 年印度新融资 AI 公司数量为 338 家，高于日本、德国等发达国家，2023 年印度新融资 AI 公司数量达 45 家，均位列世界第七，高于韩国、日本、新加坡、澳大利亚等发达国家。

印度 AI 技能相对渗透率世界第一，AI 市场规模预计高速增长。根据 Stanford HAI， 2015-2023 年 AI 技能渗透率最高的国家是印度，为 2.75%，位列世界第一，同时 2016-2023 年印度 AI 人才集中程度增长率达到 263%，增长速度位列世界第一。在大量 AI 人才基础和较高的 AI 投资的支持下，根据 BCG 和 Nasscom，印度 AI 市场 2023 年达到 70-90 亿美元，其中，18%-20%为银行、金融服务和保险，13%-15%为科技（产品及创业），8%-10%为公共部门，预计 2023-2027 年印度 AI 市场将以约 25-35%的复合年增长率增长，预计到 2027 年将达到170亿美元，其中银行、金融服务和保险以及科技（产品及创业）均占比 15%-17%， 14%-16%为公共部门。

印度政府高度重视 AI 发展，致力于全方位快速发展印度 AI 产业。2023 年，印度电子和信息技术部发布了《印度人工智能 2023 计划》报告，重点关注了包括计算基础设施建设、人工智能研究和创新能力提升、国家机器人战略草案草拟、人工智能芯片开发、印度数据集建设等问题。2024 年发布国家级“IndiaAI 使命”项目，预算约合 12.5 亿美元，实现“让 AI 在印度扎根”和“让 AI 为印度服务”两大战略目标，旨在通过增强 AI 新创公司的竞争力、扩大算力基础设施的部署，以及加速发展 LLM 和公领域 AI 应用，推动印度 AI 产业的全面发展。

印度上市公司 AI 相关业务主要集中在利用人工智能平台和技术提供软件解决方案。以 IT 服务和咨询起家的 Tata Consultancy Services (TCS)是该领域标杆。据《财富》杂志报道， TCS 于 2023 年凭借 13.31 万亿卢比的市值跃升为印度最大 IT 服务公司，年营收逾 2.27 万亿卢比。公司着力推出一系列 AI 驱动产品，如搭载机器学习与高级分析技术，用以优化 IT 运营和业务流程的认知自动化平台 Ignio、实现自动化风险管理与客户支持的综合金融服务解决方案 TCS BaNCS 等。TCS 亦不断进行人工智能战略部署，根据官网报道，23 年与亚马逊 AWS 合作推出”AI for Cloud”项目，斥资约 20 亿美元，租用超 100PB 云存储和 1 exaFLOP 算力。公司 AI 相关业务表现强劲，根据截至 23 年 3 月的财年报告，AI 板块业务收入同比增长 25%，达到总营收的约 15%。Gartner 在《2023 年全球 AI 服务市场报告》中指出，TCS 在 AI 服务领域的市场份额位居全球前三，约占 15%，超过了 Infosys 和 Wipro 等主要竞争对手。

印度生成式 AI初创企业数量及融资金额迅速增加，多元化势头增强。根据Nasscom与Inc42，截至 4M2024，印度生成 AI 初创企业累计筹集了超过 6 亿美元的融资，相较于 2021 全年增长 282%，2021 和 4M2024，印度累计生成式 AI 初创企业数量分别为 25+和 65+。在 AI 初创公司类型方面，自 2022 年以来，多元化势头不断增强，越来越多的初创企业瞄准文本 +图像、图像+视频、音频+视频等方向，解决方案覆盖药物开发、游戏开发等多个领域。

现有英语体系 LLM 无法实现直接迁移，发展高质量印度语言 LLM 是应有之义。根据 Sarvam AI 于 2023 年 12 月发布的产品报告，尽管现有的英语 LLM，如 GPT-3.5、GPT-4，可以生成印度语言内容，但英语体系分词器算法无法高效地处理印度语言，需生成约 4 倍于英语语料的 Tokens，用于以印度语言传达类似的信息内容，造成了算力的浪费。其次，英语体系 LLM 生成印度语言答案时准确性明显下降，其主要原因是印度语言网络数据池具有局限性，而英语 LLM 高度依赖网络来源数据。印度语言网络内容创作范围较窄，高质量资源集中度低。Ai4bharat 2024 年 3 月报显示，将英语互联网语料库 CommonCrawl 与印地语互联网语料库 Sangraha 对比，可发现英语有更多独特的单词，并且低频单词质量明显更高。例如，每 1000 万词随机内容中，出现频率超过 20 次的英语单词和印地语单词分别为约 9 万个和约 6 万个。英语 LLM 处理印度语言的表现亦参差不齐，在印地语、泰卢固语、泰米尔语和乌尔都语等高资源印度语言中表现良好，但在奥里亚语、克什米尔语和多格里语等中低资源语言中表现不佳。此外，由于缺乏丰富的文化参考、当地知识和印度日常生活的现实关照，英语 LLM 也经常无法识别和回答文化上微妙的问题，简单的翻译难以直接实现从英语到印度语言的有效跨语言知识转移。

Krutrim 抢占 AI 大模型全栈式开发先机，跃升为印度首家人工智能独角兽。印度本土 LLM 开发的早期尝试包括由 EkStep 基金会和 Nilekani Philanthropies 赞助的 IndicBERT、 IndicBART。前者于 2020 年推出，主要专注于自然语言理解（NLU）；后者于 2021 年推出，将重心放在自然语言生成上。两者均利用有限数据集进行从头预训练。2023 年 12 月，由印度网约车巨头 Ola Group 首席执行官 Bhavish Aggarwal 建立的 AI 初创公司 Krutrim 推出印度第一个全栈 LLM，并计划于 4Q24 推出具备多模态功能的 Krutrim Pro。“全栈”意指由底层基础设施到最终部署和监控 AI 大模型的从头开发，据 PYMNTS 报道，该 LLM 系列由 Matrix Partners 出资 2400 万美元，使用超过 2 万亿个 Tokens 训练，可应用于 9 种印度语言和 13 种外语，在多个全球知名 LLM 评估基准上表现优良，包括 MMLU、HellaSwag、 BBH、PIQA 和 ARC。根据该公司官网 2024 年 1 月新闻速递，Krutrim 于 2024 年 1 月完成第一轮融资，以 10 亿美元估值获得 5000 万美元股权投资，成为印度首家人工智能独角兽。除生成式 AI 大模型，Krutrim 的业务范围还包括 AI 云服务、超算与芯片设计。

随着 Meta 发布的 Llama 系列大模型和由微软支持的 Mistral 等大型开源模型的引入，更多公司的开发重点已转向使这些现有英语模型适应印度语，推出一系列印度语大模型，如 BharatGPT-Z、OpenHathi、Airavata、Gajendra-v0.1、Kan-LLaMA、odia_llama2、tamil_llama 等。这些模型在现有预训练纯英语模型的基础上进行构建，将它们调整为印度语。转换过程包括扩展分词器和嵌入层，然后进行一轮或多轮持续的预训练，使用来自现有多语言语料库（如 mc4、OSCAR、Roots 等）的数据来开发 Base 模型。

BharatGPT-Z 是印度的第一个对话式 AI 大模型，在 GPT、Llama 等模型的基础上混合调整而来，由CoRover.ai于2023年12月推出，受到印度政府科学技术部下设iHub Anubhuti IIITD 基金会资助。据公司官网资料显示，该大模型驱动的生成式 AI BharatGPT 支持 12 种印度语言和超 120 种外语，涵盖文本、语音和视频等多模态交互，采用高效词嵌入技术以提高计算效率，并提供自定义知识库集成、ERP/CRM 系统集成、内置支付网关等多种功能。BharatGPT-Z 的主要优势之一是其数据安全性，保证本土数据留在印度，符合印度政府“Make AI in India”的愿景，现已和多家政府组织、企业展开合作。

参考报告

电子行业专题研究：印度能成为电子制造业的下一个世界工厂吗？.pdf
- 查看报告