1.1 目标基本面及量价因子
港股与 A 股在市场参与者结构、交易制度、估值体系等方面存在显著差异, 直接影响因子的有效性逻辑。在之前的港股专题报告《一文搞懂港股 A 股差异: 从市场特征到风险模型》中,我们对于港股和 A 股市场的差异进行了详细分析。 市场参与者方面,港股以机构投资者为主,投资行为更趋理性,长期价值导向特征 显著;A 股则以境内个人投资者为主,交易活跃度更高,短期情绪驱动特征更强。 交易制度方面,港股实行 T+0 交易、无涨跌幅限制,且做空更容易,价格对信息 的反应更迅速;A 股实行 T+1 交易、涨跌幅限制,价格调整存在一定滞后性。估 值体系上,港股由于市场结构的原因(金融、地产等传统行业占比高),整体估值 显著低于 A 股等。 本报告对港股市场的基本面与低频量价进行构建及测试,并对基于 Wind 底 层财务数据构建基本面因子过程中遇到的问题进行了总结。因子具体分类及覆盖 维度如下: 基本面因子:覆盖市值、成长、价值、盈利能力、盈利质量、红利、营运效率、 偿债能力 8 个维度,共 111 个因子,反映上市公司的经营基本面与财务健康度, 是长期价值投资的核心参考指标。 低频量价因子:覆盖动量反转、流动性、换手率、波动率、技术指标 5 个维 度,基于股价、成交量等市场交易数据构建,共 150 个因子,反映市场交易行为 与价格趋势特征。

1.2 股票池及回测条件
我们选取港股通和全港股剔除仙股之后的股票池分别进行因子回测。港股市 场无涨跌幅限制,部分仙股虽可能产生极高日收益率,但其成交量通常处于极低水 平,易干扰因子回测结果的准确性,因此额外对全港股样本剔除仙股后进行因子有 效性测试。其中,港股通股票池的回测开始时间为港股通开通以来的第一个月。我 们分别在港股通和全港股(剔除仙股)后的选股池对因子进行回测,调仓频率为月 频,均进行市值行业中性化(港股通采用中信一级、剔除仙股的全港股采用恒生一 级),下同。
本章对构建因子所需的关键财务字段和数据处理中遇到的问题进行了总结。 由于港股与 A 股在会计准则、交易规则及数据库存储过程中存在差异,港股和 A 股财务字段口径有所不同,我们针对因子构建需求,对关键字段进行匹配,部分字 段需要其他字段合成得到。本报告采用 Wind 港股底层数据库作为数据源,核心 数据包括上市公司财务报表数据、日度交易行情数据及股票基本信息数据。
2.1 问题一:港股退市后代码复用怎么办?
港股代码由 5 位数字+".HK"组成,除了人民币交易的双柜台股票代码第一位 以“8”开头外,其他股票代码第一位均为 0,也就是 4 位有效数字。与 A 股不同 的是,港股退市后代码直接撤销回收以提高市场效率,因此,同一股票代码在不同 时期可能指代不同上市公司。Wind 数据库采用如下处理方式区分新旧股票:港股 代码在退市后,若有新的股票使用这个代码,则原本的代码会加“!”;如果没有新的 股票使用这个代码,则原本的代码不会加“!”,“!”后的数字可以随退市次数不断累 加。以 0013.HK 行情数据举例,在该股票正常交易、退市后新股复用代码前这两 种情况下,0013.HK 指代的都是股票 1,但是 2021/6/30 股票 2 上市并且复用 0013.HK 这一代码后,wind 会全量刷新历史数据,将股票 1 的代码全部变成 0013!1.HK。

使用代码映射表或者定期全量更新因子避免代码混淆。由于 Wind 会在有代 码复用时全量刷新代码被复用的旧公司的历史数据的股票代码为“!”格式,此时 增量更新 Wind 底层数据可能会导致代码复用的新旧公司数据拼接在一起的问题, 计算基本面及量价因子时也容易出现混淆。此时我们有两个解决方案: 全量更新底层数据及代码:这种处理方式较为简单直接,但是每天全历 史更新数据及因子值工作量很大,耗费计算资源; 维护本地代码映射表:这种方式可以做到最小化计算资源使用,但是需 要有一个唯一性的代码映射方案,比如,所有的基础数据和因子数据都 以“4 位数字代码+上市日期”存储或直接使用公司代码。以第一种方式 为例,0013!1.HK 可以记为 0013N19780103,0013.HK 可以记为 0013N20210630,即可避免代码复用及混淆的问题。
2.2 问题二:港股科目口径、货币不统一怎么办?
通过使用 Wind GSD 标准化报表计算财务指标,解决不同会计准则下会计科 目口径不一致的问题。由于港股上市公司采用不同的会计准则编制财务报表,导致 各公司原始报表存在科目口径不一致的问题。为了便于我们进行个股之间的横向 比较,我们采用 Wind GSD 标准化报表,这些报表统一转换为 IFRS 准则,但未对 货币种类进行调整。Wind 数据库中 GSD 标准化之后的资产负债表共有 65 个财 务指标,利润表共有 56 个财务指标,现金流量表共有 26 个财务指标。 港股行情数据和报表数据需经过时序汇率调整来统一货币。Wind 的港股行情 数据和三张报表数据中均有货币代码 CRNCY_CODE 字段,我们可以用该字段判 断股票数据记录时的货币单位,并使用汇率转换表统一为港币。股票行情、估值、 三张财务报表均需要统一货币: HKshareEODPrices(行情表):按照交易日与汇率对齐,将最高价、最 低价、收盘价、开盘价等行情数据统一为港元; HKShareEODDerivativeIndex(估值表):按照交易日与汇率对齐,将 总市值与流通市值数据统一为港元; HKGSDBalanceSheet、HKGSDIncome、HKGSDCashFlow(三张报 表):按照报告截止日期与汇率对齐,将会计科目(金额类)统一为港元。
2.3 问题三:不同会计年度下,如何识别港股报告期?
Wind 三张报表中关于报告期及类型的关键字段有: 首次公告日期 ANN_DT:即公告发布日期,该字段与 A 股用法相同; 报告类型代码 REPORT_TYPE:按照时间对财报进行分类,除常见年报、 半年报、一三季报等常规报告期外,还有月报、下半年报等不规则报告 期,此处我们仅选择年报、半年报、一三季报、报告期调整这 5 种报告 类型; 起始日期 BEGIN_DT:报告统计区间的开始日期; 截至日期 REPORT_PERIOD 或 END_DT:报告统计区间的结束日期。 该字段在三张报表中字段名称不一样,但是功能一样。该字段与 A 股 REPORT_PERIOD(报告期)含义有所不同,港股该字段仅指报告数据的 统计截止日,不可直接通过报告期字段判断是年/半年/季报,还需结合报 告类型代码 REPORT_TYPE 共同判断报告时间类型,比如 20241231 不 一定是 2024 年年报,还可能是统计区间为 20240630~20241231 的半 年报; 通过哪些字段判断港股报告期?A 股会计年度均为自然年度,所以我们可以简单通过报告期(比如 20241231 就是 2024 年年报)来判断报告时间和类型。 但是由于港股各公司自行规定会计年度,报告统计区间各家都有所差异,所以我们 需要通过 报 告 截 止 日 期 ( REPORT_PERIOD 或 END_DT ) + 报 告 类 型 (REPORT_TYPE)这两个字段来确定报告时间和类型。比如公司 A 有一条数据 的 REPORT_PERIOD 为 20240630,REPORT_TYPE 为 419007000(年报),则 该数据为统计区间 20230630~20240630 的 2024 年报,此处我们直接使用截止 日期所在的年份定义报告年份。

什么是“报告期调整”的报告类型?港股上市公司可能会在年报发布后更改年 结日,比如公司 6 原本以自然年度作为其会计年度,年结日为 1231,但是 2018 年年报发布后,其决定修改年结日为每年的 0331,那么该公司 2019 年年报的统 计区间更新为 20180331~20190331,与 2018 年年报的统计区间有所重合。变 更会计年度前发布的年报就会被归类为“报告期调整”类型而不是“年报”类型, 为了保证数据的完整性,我们提取基础数据时需要选择年报、半年报、一三季报、 报告期调整这 5 种报告类型,并把“报告期调整”对应的报告类型改为“年报”。
2.4 问题四:港股不强制发布季报,单季度数据覆盖度不 够,影响什么指标计算?
无法计算港股的单季度财务数据,与 mrq 相关的指标同样无法计算。由于港 股只强制要求披露年报和半年报,不强制要求披露季报,所以大部分公司一年只发 布两期报告,或者偶尔披露季报,这导致我们难以通过其他期报表做差计算单季度 财务指标。
我们可以通过已发布报告计算财务指标的TTM,对于发布季报的公司,其TTM 数据更新频率更高。Wind 三张报表中关于报告类型的关键字段为:
报表类型代码 STATEMENT_TYPE:母公司编制的包括所有控股子公司 的会计报表,该字段与 A 股用法相同。对于三张报表我们保留所有公开、 非单季度的合并报表(包括调整后),以此最大限度消除未来数据影响;
2.5 问题五:不同研究需求下港股财务数据如何对齐比较?
港股财务年度存在不统一的问题,导致我们难以在同一时间维度下对港股公 司的财务状况进行横向对比。具体来看,港股 GSD 报表未直接提供经调整的单季 度财务数据,而手动计算单季度指标又面临覆盖度不足的难题,进一步限制了对比 的可行性。 站在特定时间节点,市场对港股公司财务数据的对比主要存在两类需求,但均 面临现实约束:一是同一报告期间的财务数据对比(例如对比公司 A 与公司 B 的 2024 年年报营业收入),即便两家公司均已披露年报,但其年报统计区间可能存 在差异,导致对比缺乏实际意义;二是同一时间区间的财务数据对比(例如对比两 家公司 2024 年 1-6 月的营业收入),这一需求目前难以通过现有财务数据直接实 现。 综合来看,当前最优解决方案是计算财务指标的 TTM(过去十二个月)数据 ——通过该方式可获取当前时间节点下最新报告覆盖的过去一年财务数据,尽管各 家公司的具体统计范围仍有细微差异,但已能最大程度满足横向对比的核心需求。
2.6 问题六:港股股票池应该怎么筛选?
我们将剔除 REITs 双柜台证券、并行代码后的港股市场作为因子构造的样本 空间。与 A 股市场较为标准化的证券类型不同,港股市场存在一些特殊的证券种 类,在构建因子时需要进行额外处理。此外,由于港股没有涨跌停和风险警示板制 度,所以在港股的股票池中我们不去做相应剔除。需要额外剔除的特殊证券类型: 并行代码:中国香港一些上市集团内的母公司和子公司均处于上市状态,并拥 有不同的股票代码,比如坛金矿业和坛金矿业(并)的股票代码分别为 0621.HK、 2919.HK,但是它们本质上属于同一家公司,财务数据完全一致,仅在量价数据上 有所不同,为避免对后续因子标准化等处理时产生影响,我们在计算基本面因子时 对这类股票进行了剔除。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)