因“数”制宜,强调逻辑与理念的双重可解释性。
ESG 数据治理最初的对象是上市公司 CSR 报告、舆情数据等 ESG 原始数据源,这 些数据来源分散,因此 ESG 数据治理的第一步是收集 ESG 数据需求并根据需求选定数据 源,之后对相关原始数据进行采集。 采集的ESG数据除企业年报外,多数数据缺乏标准组织格式,尤其是舆情等另类数 据。因此ESG数据治理第二步是利用 AI+人工的手段从数据源中将核心数据进行精炼,并 经过复核流程确保数据与原始文件的匹配。复核后的底层数据已经由形式多样的数据源规 整为具有多个属性的数据项,因此这一步骤成为“数据结构化”。
数据治理的第三步是对底层数据通过算法逻辑计算得到“原始指标”。对于 ESG 评价 体系来说,部分指标可能涉及多项底层数据,这些底层数据将通过关联计算得到相应原始 指标。此时的原始指标具有标准化的组织结构,因此该过程称为“数据标准化”。 标准化后的数据虽然在组织结构一致,但数值类型并非均为数值型。例如,“是否单 独披露 CSR 报告”的指标项可视为布尔型变量。这些非数值型变量无法直接参与数学模 型的计算。此外,即使是数值型的变量也需要经过进一步加工才能与 ESG 应用需求匹配。 因此数据治理的第四步即数据归一化,即依据指标的含义及类型,采取适当的策略将其归 一化为一定区间(如 0-100 分)的数值型指标。这些指标将量化出上市公司在 ESG 多个 方面的表现,并具备全市场或行业内可比性。
最后评级机构按照特定的方法将多个数值型指标聚合为上市公司的 ESG 评分供用户 使用。值得注意的是,聚合过程中指标选择和指标权重会根据不同的 ESG 应用场景而有 所差异。

与其他领域的数据治理方法相比,ESG 数据治理更加强调可解释性,分别可以从以下 五个维度进行理解: 1)底层数据处理逻辑可解释。由于我国 A 股市场信披体系尚未成熟,部分上市公司 披露的数据质量较低,评级机构在开展 ESG 数据治理时普遍要面对的问题之一是数据缺 失。在数据清洗过程中,处理低质量数据的逻辑需要具备可解释性,同时这些逻辑依据指 标含义的不同可能存在差异。例如,对于“企业政策量化得分”,我们可以采取行业均值 填充该指标缺失值,这是因为政策的发布与施行对象通常是行业而非公司。而对于“管理 层平均任期”,我们则倾向用同行业同属性公司的指标均值填充。这是因为国有企业和非 国有企业在此项指标方面通常存在较大差异。
2)指标处理流程对 ESG 理念可解释。ESG 数据治理是以需求为导向,其在处理过 程中应始终与 ESG 理念相匹配。例如能够反映企业供应链稳定性的“供应链集中度”指 标,其在量化处理时需要对上市公司头部供应商数量做认真调研。调研所需考量的方向包 括要覆盖一定数量的头部供应商以客观反映集中度水平,同时还需要考虑经过计算后的指 标能够在同行业的公司间形成分化,以此提升该指标应用价值。
3)指标处理结果与公司实际情况可解释。经过数据治理后的数值指标项除量化应用 外,还要面向主动权益应用。因此归一化后的指标一方面能够通过数值大小客观反映出上 市公司在该方面表现的优劣,还应具备向底层信息穿透的能力以解释公司的实际情况。例 如,若上市公司在“交易所、证监会监管与处罚”一项得分为满分,则意味着该上市公司 在过去一定时间内未受到相应处罚。依据此特性,若多数指标项与专家经验或行业认知不 符,说明所使用的数据或处理逻辑存在较大缺陷。
4)行业间可比的处理逻辑可解释。评级机构的ESG得分是覆盖市场多个行业的多家上市公司,在应用方面可能需要在部分指标上对不同行业公司进行对比。因此归一化范畴的设定同样需要可解释的处理逻辑。例如体现企业污染排放水平的相关指标上,第三产业在整体上相比第一、第二产业具有天然的优势因此需要在行业内做归一化。如此得到的结果消除了因行业特性带来的影响,可视为当前上市公司在行业内的相对表现。而对于“管理层增减持比例”这一指标,由于其含义与行业特性关联较小,因此采用的是全市场范围归一化。

5)最终结果对应用方向可解释。融入投资于研究体系,是 ESG 理念间接影响产业的 重要应用方向之一,目前国内外均存在 ESG 主题相关的公募基金、银行理财等产品。在 该背景下,ESG 的长期价值可解释性与投资有效性成为检验全流程数据治理质量的最核心 维度之一。 综上所述,可解释性是贯穿 ESG 数据治理过程中的核心特点,其覆盖的多个维度亦 可成为衡量数据治理优劣的依据。
从外部数据上,ESG 数据来源多。这些数据除企业披露的年报外缺乏严格的组织范式, 形式多样。从数量上,新闻舆情属于典型的另类数据,具有体量大、更新时间快等典型的 大数据特征。而且多个数据源间还可能存在信息重叠的问题,需要从海量数据中对数据进 行提炼。从对象上,为了提升 ESG 评分的投资有效性,评级体系的覆盖的上市公司应尽 可能全面。在这种情况下,依靠纯人工开展 ESG 数据治理势必需要付出巨大的时间成本, 难以满足及时性等实际应用需求,因此势必要借助金融科技的手段提升工作效率。
典型的 场景包括利用自然语言处理(NLP)对原始数据源的跟踪与分析,而 NLP 作为一种机器学 习技术,在模型设计与训练方面存在较高的技术门槛。例如专业的人才、强大的算力、充 足的训练数据等。另一方面,机器学习虽然能够极大缓解人工作业强度,但受技术水平限 制,机器学习在数据提炼时仍然可能会引入额外的噪声。因此需要一定量的人力进行数据 校验,尤其是在模型尚未成熟的阶段。
ESG 数据治理还要求研究团队具备行业的理解和对数据理解,能够自上而下的设计驱 动数据治理的过程。一方面,团队需要基于国内企业生产经营实际的外部环境调整指标选 取、量化与权重,从而设计能够有效、真实、客观地反馈企业在该理念下表现情况的评分 体系。另一方面,团队也需要清楚这些指标背后的数据点分布,即如何从海量数据中挖掘 指标因子。此外 ESG 概念在行业间存在较大差异,每个行业均具备一定的实质性议题, 因此在数据治理过程中亦需要团队在相关行业具备丰富的经验和知识储备。
