拓尔思数据中心目前拥有 3 大专业 IDC 机房,上千台高端机架式 服务器完成对互联网公开数据的 7*24 小时不间断采集,同时租用了阿里云及微软云的服务器实现境外数据采集。
拓尔思自建大数据中心,以长期服务多行业用户的开源数据应用 持续累积为基础,拥有了规模及质量均位列业界前茅的、公开的资源 性数据资产。目前,拓尔思拥有来自境内外、各行各业的互联网公开 数据,总量超 1300 亿,具备数千亿数据量的数据索引、标记、查询、挖掘分析能力,万亿级数据总量的秒级检索能力,日均亿级数据获取 能力。拓尔思大数据中心不仅支撑公司多个专业化的数据智能服务, 也具有对外的开放接口服务,可满足公司面向政府、媒体、金融、公 安、商业等多行业用户的开源大数据云服务需求。

机器认知的核心能力之一是自然语言理解,而机器理解自然语言 需要足够的知识库支撑。拓尔思基于自然语言处理技术、积累的各场 景行业术语及主题数据形成的各行业知识图谱,对海量多源异构数据进行融合、关联、标注以及知识化处理,构建形成大规模领域知识图 谱。目前,公司拥有通用、行业/领域知识库 30+大类,标签规则 30000+。 每类知识库具有规模大、语义关系丰富、结构友好、质量精良等特点。
拓尔思通过大规模自监督学习的多模态人工智能算法,融合自然 语言理解,基于行业的千亿级图文大规模预训练,实现用更小的标注样本数量,融合更多的模态信息,形成了 350+深度学习算法模型的模 型工厂,可面向不同行业、不同落地场景对数据进行知识模型的加工。

基于上述资源性数据资产、知识库、模型工厂的融合治理,拓尔 思公司目前已形成了产业大脑、媒体资讯、网络舆情三大数据资产平 台,为公司在网络信息内容治理、金融监管、政务资讯服务、金融机 构风控管理、智能媒体服务、开源情报等领域的云和数据服务提供数 智赋能。