主办单位:中国财政杂志社
地址:中国北京海淀区万寿路西街甲11号院3号楼 邮编:100036 电话:010-88227114
京ICP备19047955号京公网安备 11010802030967号网络出版服务许可证:(署)网出证(京)字第317号
财务研究 | 李莹 曲晓辉:机器学习如何帮助我们识别公司未来违规可能?
原文载于:《财务研究》2022年第4期,原标题为《基于机器学习的公司违规预测研究》。
公司违规是资本市场研究的一大重要问题。监管机构、投资者、审计师和分析师如何更早地发现公司违规行为,并进行重点关注或跟踪调查,对资本市场的健康发展至关重要。然而,现有传统预测方法大多基于线性回归模型,从主观认知或局部经验出发确定影响要素,很难准确预警公司违规行为,事前发现和事中监管面临巨大挑战。因此,如何构建具有事前提示功能的公司违规预警模型,是学术界与实务界的重要研究课题。
近年来,人工智能技术的发展为公司违规预警研究提供了新的突破口。机器学习作为人工智能的代表性技术,是借助高级的数学方法和新型的算法从大数据中寻找出有用的数据并进行挖掘的技术。在经管领域,机器学习能够为统计预测问题提供高维模型和大量候选模型,并能够进行有效算法的筛选。
本文以2007~2017年我国A股上市公司为研究样本,构建了基于机器学习算法的公司违规预测模型并实施检验。研究发现:
(1)通过比对分析可知,广为使用的线性回归模型不能充分挖掘数据信息并进行有效预测,机器学习的树模型(Random Forest 和 GBDT)和神经网络模型(RNN 和 LSTM)的预测效果更优。
(2)采用 SHAP 方法探寻公司违规的重要预警因子及其贡献度,发现公司治理相关变量对违规预警具有重要贡献,传统线性回归模型过分强调财务数据的预警能力,弱化了公司治理因子对违规预警的贡献。
(3)进一步采用 SHAP 方法将 Random Forest 和 GBDT 模型的运作过程和贡献分布可视化,挖掘重要因子对公司未来违规的影响机理 ;考虑到传统线性回归模型无法明确变量对公司违规行为产生有效影响的具体范围,本文以 Random Forest 为例,计算主要影响因子的警惕阈值。
第一,随着人工智能的发展,机器学习方法已经在许多领域取得令人满意的成果。然而在资本市场领域,学者们仍然较多基于研究样本推导公司违规的因果关系,如许多文献采用线性回归方法构建预测模型(吴世农和卢贤义,2001;Dechow等,2011;洪荭等,2012)。本文创新性地融合人工智能与公司违规研究,将机器学习方法应用于预测公司违规,扩展了公司违规研究数据分析与建模工具箱,强调了机器学习在财务研究中的重要价值,为此类问题在大数据环境下的发展提供了新方法和新思路。
第二,本文通过对基于机器学习的公司违规模型的特征因子进行重要性分析,发现公司违规记录、盈利能力及外部治理水平是公司违规发生的重要预警指标。相比于内部公司治理,外部公司治理为公司违规预测模型提供了显著重要且易于取得的有用信息,该结论为以往未充分考虑公司外部治理特征的预测模型提供了补充证据。
第三,机器学习复杂的模型使人们难以理解其性质,为此本文采用SHAP方法将模型运作过程可视化,打开机器学习“黑箱”,深入挖掘和分析公司违规预测模型中因子的影响机理及有效作用范围,打破了以往机器学习模型在因子效度检验方面缺乏经济依据和解释力的局面,提供了数据间经济关系解释的可能性。
基金项目
教育部人文社会科学重点研究基地重大项目( 16JJD790035);江苏高校哲学社会科学研究项目( 2021SJA0356);江苏高校优势学科建设工程资助项目(PAPD);深圳市人文社会科学重点研究基地哈尔滨工业大学(深圳)大数据会计与决策研究中心基金(KP191001)