印度高度重视 AI 产业全方位发展,政策支持+高 AI 投资下 有望迎来高速增长。
印度 AI 私人投资金额及新融资 AI 公司数量位于世界前列。根据 Stanford HAI,2013-2023 印度 AI 累计私人投资位列世界第七,为 98.5 亿美元,高于法国、韩国等发达国家,2023 年印度 AI 私人投达到 13.9 亿美元,位列世界第十,高于新加坡、日本、澳大利亚等发达国 家;2013-2023 年印度新融资 AI 公司数量为 338 家,高于日本、德国等发达国家,2023 年印度新融资 AI 公司数量达 45 家,均位列世界第七,高于韩国、日本、新加坡、澳大利 亚等发达国家。
印度 AI 技能相对渗透率世界第一,AI 市场规模预计高速增长。根据 Stanford HAI, 2015-2023 年 AI 技能渗透率最高的国家是印度,为 2.75%,位列世界第一,同时 2016-2023 年印度 AI 人才集中程度增长率达到 263%,增长速度位列世界第一。在大量 AI 人才基础和 较高的 AI 投资的支持下,根据 BCG 和 Nasscom,印度 AI 市场 2023 年达到 70-90 亿美元, 其中,18%-20%为银行、金融服务和保险,13%-15%为科技(产品及创业),8%-10%为 公共部门,预计 2023-2027 年印度 AI 市场将以约 25-35%的复合年增长率增长,预计到 2027 年将达到170亿美元,其中银行、金融服务和保险以及科技(产品及创业)均占比 15%-17%, 14%-16%为公共部门。
印度政府高度重视 AI 发展,致力于全方位快速发展印度 AI 产业。2023 年,印度电子和信 息技术部发布了《印度人工智能 2023 计划》报告,重点关注了包括计算基础设施建设、人 工智能研究和创新能力提升、国家机器人战略草案草拟、人工智能芯片开发、印度数据集 建设等问题。2024 年发布国家级“IndiaAI 使命”项目,预算约合 12.5 亿美元,实现“让 AI 在印度扎根”和“让 AI 为印度服务”两大战略目标,旨在通过增强 AI 新创公司的竞争 力、扩大算力基础设施的部署,以及加速发展 LLM 和公领域 AI 应用,推动印度 AI 产业的 全面发展。
印度上市公司 AI 相关业务主要集中在利用人工智能平台和技术提供软件解决方案。以 IT 服务和咨询起家的 Tata Consultancy Services (TCS)是该领域标杆。据《财富》杂志报道, TCS 于 2023 年凭借 13.31 万亿卢比的市值跃升为印度最大 IT 服务公司,年营收逾 2.27 万 亿卢比。公司着力推出一系列 AI 驱动产品,如搭载机器学习与高级分析技术,用以优化 IT 运营和业务流程的认知自动化平台 Ignio、实现自动化风险管理与客户支持的综合金融服务 解决方案 TCS BaNCS 等。TCS 亦不断进行人工智能战略部署,根据官网报道,23 年与亚 马逊 AWS 合作推出”AI for Cloud”项目,斥资约 20 亿美元,租用超 100PB 云存储和 1 exaFLOP 算力。公司 AI 相关业务表现强劲,根据截至 23 年 3 月的财年报告,AI 板块业务 收入同比增长 25%,达到总营收的约 15%。Gartner 在《2023 年全球 AI 服务市场报告》 中指出,TCS 在 AI 服务领域的市场份额位居全球前三,约占 15%,超过了 Infosys 和 Wipro 等主要竞争对手。
印度生成式 AI初创企业数量及融资金额迅速增加,多元化势头增强。根据Nasscom与Inc42, 截至 4M2024,印度生成 AI 初创企业累计筹集了超过 6 亿美元的融资,相较于 2021 全年 增长 282%,2021 和 4M2024,印度累计生成式 AI 初创企业数量分别为 25+和 65+。在 AI 初创公司类型方面,自 2022 年以来,多元化势头不断增强,越来越多的初创企业瞄准文本 +图像、图像+视频、音频+视频等方向,解决方案覆盖药物开发、游戏开发等多个领域。

现有英语体系 LLM 无法实现直接迁移,发展高质量印度语言 LLM 是应有之义。根据 Sarvam AI 于 2023 年 12 月发布的产品报告, 尽管现有的英语 LLM,如 GPT-3.5、GPT-4,可以 生成印度语言内容,但英语体系分词器算法无法高效地处理印度语言,需生成约 4 倍于英 语语料的 Tokens,用于以印度语言传达类似的信息内容,造成了算力的浪费。其次,英语 体系 LLM 生成印度语言答案时准确性明显下降,其主要原因是印度语言网络数据池具有局 限性,而英语 LLM 高度依赖网络来源数据。印度语言网络内容创作范围较窄,高质量资源 集中度低。Ai4bharat 2024 年 3 月报显示,将英语互联网语料库 CommonCrawl 与印地语 互联网语料库 Sangraha 对比,可发现英语有更多独特的单词,并且低频单词质量明显更 高。例如,每 1000 万词随机内容中,出现频率超过 20 次的英语单词和印地语单词分别为 约 9 万个和约 6 万个。英语 LLM 处理印度语言的表现亦参差不齐,在印地语、泰卢固语、 泰米尔语和乌尔都语等高资源印度语言中表现良好,但在奥里亚语、克什米尔语和多格里 语等中低资源语言中表现不佳。此外,由于缺乏丰富的文化参考、当地知识和印度日常生 活的现实关照,英语 LLM 也经常无法识别和回答文化上微妙的问题,简单的翻译难以直接 实现从英语到印度语言的有效跨语言知识转移。
Krutrim 抢占 AI 大模型全栈式开发先机,跃升为印度首家人工智能独角兽。印度本土 LLM 开发的早期尝试包括由 EkStep 基金会和 Nilekani Philanthropies 赞助的 IndicBERT、 IndicBART。前者于 2020 年推出,主要专注于自然语言理解(NLU);后者于 2021 年推出, 将重心放在自然语言生成上。两者均利用有限数据集进行从头预训练。2023 年 12 月,由 印度网约车巨头 Ola Group 首席执行官 Bhavish Aggarwal 建立的 AI 初创公司 Krutrim 推出 印度第一个全栈 LLM,并计划于 4Q24 推出具备多模态功能的 Krutrim Pro。“全栈”意指 由底层基础设施到最终部署和监控 AI 大模型的从头开发,据 PYMNTS 报道,该 LLM 系列 由 Matrix Partners 出资 2400 万美元,使用超过 2 万亿个 Tokens 训练,可应用于 9 种印 度语言和 13 种外语,在多个全球知名 LLM 评估基准上表现优良,包括 MMLU、HellaSwag、 BBH、PIQA 和 ARC。根据该公司官网 2024 年 1 月新闻速递,Krutrim 于 2024 年 1 月完 成第一轮融资,以 10 亿美元估值获得 5000 万美元股权投资,成为印度首家人工智能独角 兽。除生成式 AI 大模型,Krutrim 的业务范围还包括 AI 云服务、超算与芯片设计。
随着 Meta 发布的 Llama 系列大模型和由微软支持的 Mistral 等大型开源模型的引入,更 多公司的开发重点已转向使这些现有英语模型适应印度语,推出一系列印度语大模型,如 BharatGPT-Z、OpenHathi、Airavata、Gajendra-v0.1、Kan-LLaMA、odia_llama2、tamil_llama 等。这些模型在现有预训练纯英语模型的基础上进行构建,将它们调整为印度语。转换过 程包括扩展分词器和嵌入层,然后进行一轮或多轮持续的预训练,使用来自现有多语言语 料库(如 mc4、OSCAR、Roots 等)的数据来开发 Base 模型。
BharatGPT-Z 是印度的第一个对话式 AI 大模型,在 GPT、Llama 等模型的基础上混合调 整而来,由CoRover.ai于2023年12月推出,受到印度政府科学技术部下设iHub Anubhuti IIITD 基金会资助。据公司官网资料显示,该大模型驱动的生成式 AI BharatGPT 支持 12 种印度语言和超 120 种外语,涵盖文本、语音和视频等多模态交互,采用高效词嵌入技术 以提高计算效率,并提供自定义知识库集成、ERP/CRM 系统集成、内置支付网关等多种 功能。BharatGPT-Z 的主要优势之一是其数据安全性,保证本土数据留在印度,符合印度 政府“Make AI in India”的愿景,现已和多家政府组织、企业展开合作。