主办单位:中国财政杂志社
地址:中国北京海淀区万寿路西街甲11号院3号楼 邮编:100036 互联网新闻信息服务许可证:10120240014 投诉举报电话:010-88227120
京ICP备19047955号京公网安备 11010802030967号网络出版服务许可证:(署)网出证(京)字第317号
财务与会计 | 谢力:数据资源入表路径及入表成本分析
引用本文请复制此条目:谢力.数据资源入表路径及入表成本分析[J].财务与会计,2025,(17):31-34.
财政部发布《企业数据资源相关会计处理暂行规定》(以下简称暂行规定)以来,各类市场主体均在积极探索数据资源入表机制,激活数据要素市场发展内生动力。根据上市公司公开披露信息,共有92家上市公司在2024年年报中实现了真正意义上的数据资源入表,入表金额超过20.9亿元,其中24家属于信息传输、软件和信息技术服务业(本文将这类企业称为数据服务企业),剩余68家企业属于制造业等14大行业(本文将这类企业称为非数据服务企业)。通过深入分析92家上市公司披露的相关信息,笔者发现目前企业数据资源入表普遍存在数据资源定义不清,混淆数据资源和数据服务,数据资源资产识别和管理、数据资源成本归集和分摊逻辑不清等问题。本文拟结合实务项目经验就这些问题和解决思路进行分析探讨。 数据资源的定义和范围 暂行规定明确了符合规定的数据资源可以资产化,但并未对数据资源进行明确定义。实务中大部分数据交易所可以挂牌的数据产品包括语料库、数据集和数据服务,因此很多入表企业也是把上述三类数据产品作为数据资源进行入表。在92家入表的上市公司中有39家披露了具体入表数据资源的内容,经过统计分析发现其中3家公司入表为语料库,14家公司入表为数据集,22家公司入表数据资源为各类系统平台和技术平台。 笔者认为,将语料库和数据集作为数据资源没有争议,但将数据服务(表现为系统平台或技术平台)整体作为数据资源进行入表有待商榷。国家发展改革委、国家数据局于2025年1月印发的《公共数据资源登记管理暂行办法》将数据资源和数据服务作了明确区分,并要求分别登记,前者为数据集,后者为基于数据资源开发的数据产品或服务。 图1是普遍适用的数据服务简图,展示了数据服务的概貌:用户通过Web、App或小程序等用户界面发起数据服务请求,通过后台系统运算后返回数据服务内容。有些数据服务只需要后台系统参与,有些数据服务则需要后台系统调用底层数据库或模型能力处理后再返回输出结果。模型既可以是规则化的模型(如信贷风控模型),也可以是通过特定算法和语料训练之后的AI模型(如DeepSeek、豆包等)。 由图1可见,数据服务通常由用户界面、后台系统、数据库、模型、算法和语料库等不同的功能模块构成。在提供数据服务的过程中,不同用户界面可以调用同一个后台系统,同一个数据库可以服务于多个后台系统,同一个算法和语料库可以用于不同模型的训练,同一个模型也可以被不同后台系统调用,因此将这些模块识别为不同资产进行管理和核算更为合适。 在这些资产中,笔者认为数据库和语料库是符合暂行规定的数据资源,其他几类资产并不满足暂行规定的规范意图。从业务管理和财务核算角度看,用户界面和后台系统属于软件著作权。对于算法和模型而言,实务中主要通过三种途径进行知识产权保护,即专利权(《专利审查指南》明确了对于包含算法特征或商业规则和方法特征的发明专利申请的审查标准)、软件著作权(著作权法规定,“计算机软件”是受著作权保护的“作品”。当算法、模型以计算机代码的形式成为“计算机软件”的一部分时,受到著作权的保护)和商业秘密(反不正当竞争法规定商业秘密的界定采用“秘密性、价值性、相应保护措施”三要件说,作为企业核心技术的算法和模型往往均可满足),可以分别对应财务核算上的专利权、软件著作权和非专利技术。 数据资源、算法、模型通常也以软件系统的形式存在,因此如果金额较小,按照重要性原则,建议企业不单独核算,而是将其价值纳入软件著作权进行统一核算。但如果企业信息披露要突出其数据服务布局和数据资源优势时,为了避免报表阅读者和使用者产生误解,不能简单将用户界面、后台系统、模型和算法等打包为一项数据资源,建议企业可以在原有无形资产分类基础之上,增加数据资源、算法和模型等作为新的无形资产类别,分别管理和核算相关无形资产,并在报表附注中增加详细说明。 数据资源资产的识别 资产核算的基本要求之一是“一物一码”,即同时取得多项同类资产时需要分别建立多个资产卡片,而不是一个资产卡片。笔者发现,92家公司入表数据资源几乎都是一项,这种将数据资源打包成一项资产的做法并不符合数据资源的资产特点。 图1中的数据库(包括语料库,下同)包含了多种类型的数据。不管是数据服务类企业还是非数据服务类企业,企业组织和管理数据时通常采用图2所示的数据架构。 企业数据架构将企业数据处理过程分为数据标准、主数据、业务源数据、贴源层数据、中间层数据和展示层数据六个主要层次。这种架构的设计旨在提高数据的整合性、可访问性和可分析性,帮助企业在复杂的数据环境中作出明智的数据使用决策。 数据标准,即在收集和使用数据前先对数据进行定义,将现实世界抽象成不同的业务对象,并对业务对象进行定义,形成企业的数据资产目录,统一企业内部的数据口径。数据资产目录内容通常包括业务对象、业务对象属性和属性数据标准(元数据)。目前行业性的数据标准包括中注协发布的《注册会计师审计数据规范 采购》等8项注册会计师审计数据标准和财政部发布的电子凭证会计数据标准。 主数据是指在企业内部跨多个系统、应用程序和业务过程中共享、使用和维护的关键业务实体的核心数据。这些数据通常包括客户、产品、供应商、员工和其他重要的业务对象的信息,其目的是确保数据在组织内的一致性、准确性和可靠性。主数据更新频率慢,数据收集或更新后在一定时期内不会变化,且其数据汇总表的记录条数相对较少。 业务源数据是基于业务活动产生、收集和记录的业务信息。业务源数据通常会引用大量主数据信息并产生业务活动的流水账,是管理数据的源头数据。业务源数据在业务流程中实时产生和收集,数据条数较多,但数据栏目(字段)较少。 贴源层数据即贴近数据源头的数据。这一层的主要任务是将源数据进行抽取、脱敏、清洗、转换和标注,在确保数据安全的前提下提高数据的质量和一致性。之所以不对源数据直接进行脱敏、清洗和标注等处理,是因为业务数据不能随意篡改,而为数据使用考虑有时候又不得不对源数据进行修改。如果业务源数据质量高,则这部分的工作量将大幅降低。贴源层数据是对源数据定期进行加工而形成,除必要的脱敏清洗工作外,对源数据不作其他修改。企业从外部购买的数据资源通常也是经过脱敏、清洗和标注的贴源层数据。 中间层数据是整个架构的核心,负责存储经过处理的数据并提供高效的查询能力。由于业务源数据表单通常成为“窄表”,其特征为表单数量很多,但每个表单内部的信息量(字段数量)有限。用户使用业务数据进行决策分析时需要将不同业务表单的数据进行集成,汇总成一张信息量庞大的“宽表”(字段数量多),才能得出有管理价值的结论。数据工程师通常会根据业务主题,将主数据、业务源数据和外购数据进行集成,生成各种中间表。后续展示层使用数据时就不用频繁从贴源层调取,大大优化了数据的调用效率和系统的反应速度。数据在集成整合过程中可能会形成新的中间层数据集,也可能会集成到原有的中间层数据集中。 展示层数据是最终用户与数据交互的界面,通常包括各种数据可视化工具和报表生成工具。在这一层,用户可以通过图形界面轻松地访问、分析和展示数据。前端展示层的设计旨在使数据的获取和分析过程尽可能简单和直观,使非技术用户也能够从中获取有价值的洞察。展示层数据有固定报表形式和动态生成两种形式。前者是针对常用的数据需求定期存储数据集,使用时直接调用预存数据集;后者没有预存数据集,而是根据用户数据需求实时生成和显示数据。因此展示层数据并不一定有物理上的数据集存在,而是动态调用中间层数据集。此外,展示层数据调用的很可能是多个时期的中间层数据集。 数据标准的建立类似于数据标准零部件的制造,后续从主数据到展示层数据的所有数据都是通过这些标准零部件进行各种组合和应用。这个组合的设计过程就是数据建模,即对各类数据集的表结构进行设计,具体内容包括:表单功能定义、表单引用的业务对象及其属性、表单字段数据源、数据源集成方式等。 综上所述,笔者认为企业数据资源资产包括三大类: 一是数据资产目录,即业务对象定义、属性,以及每个属性的数据标准(元数据)。这部分目录资产很难独立拆分和使用,因此可以作为整体形成一项数据资源资产进行管理。 二是数据模型目录,即各类应用场景下数据表单的定义,表单字段所属业务对象,表单数据分布信息(所引用数据的数据源在哪里)及表单数据集成方案(如何与其他表单的数据进行集成)。这部分目录资产可以作为一项或多项数据资源资产管理。 三是数据集,即从主数据到展示层数据的各类带有记录的数据集。不同的数据集产生和处理的周期、受益期间等完全不同,甚至在大型企业集团中其业务主体都不同,因此需要结合企业的实际情况识别成不同的数据资源资产进行管理和核算。 从现有披露信息看,入表企业罕有就数据资产目录和数据模型目录进行资产化管理,这与当前企业信息化重系统建设、轻数据标准和数据治理的现状密切相关。 数据资源确认和计量 暂行规定指出满足条件的数据资源可以确认为无形资产或存货。实务中由于涉及权属认定问题,大部分上市公司入表数据资源都是无形资产或开发支出,因此笔者从数据治理视角对无形资产(含开发支出,下同)数据资源的成本归集、分摊和传递进行深入分析。 (一)数据资产目录成本确认和计量 实务中企业数据资产目录的形成有两种方式。一是通过专门的数据治理项目对数据资产进行系统梳理,形成数据资产目录。这种模式下,数据资产目录的形成投入成本金额较大,且能够独立计量。企业数据资产目录对于提升企业信息化能力、降低信息化投入、提高信息化效率具有作用意义。二是在各类信息化项目中明确了数据治理要求,数据资产目录会作为项目成果提交。这种模式下数据资产目录部分的成本占项目整体比例不高,且是否能够独立计量存在不确定性。 确认为无形资产的数据资产目录具有使用寿命不确定的特征,在企业经营可持续性不确定或有行业性数据标准体系贯标需求时存在减值迹象。 (二)数据模型目录成本确认和计量 数据服务企业的数据采集、处理、集成通常都有专门的数据采集、数据清洗标注、数据集成设备和系统。数据模型目录通常是在此类专项设备系统研制开发的前期进行需求调研后的设计成果,是此类专项设备系统研制开发的重要依据,因此数据模型目录都是基于某个特定数据应用场景产生的。 数据模型目录的成本(即数据建模成本)计量可以分为两种方式。一是作为数据处理专业设备系统的成本,计入对应固定资产或软件著作权中。二是将数据模型目录作为独立的数据资源进行核算。这种方式下,企业要将数据建模成本独立核算涉及成本的分摊问题,需要结合企业的实际情况来确定分摊方式。 对于非数据服务企业来说,建议采用第一种核算方式。对于数据服务企业,如果确需单独核算,建议企业按照不同的数据服务业务分别识别数据模型目录,并作为一项独立的数据资源资产进行管理和核算,其无形资产受益期间可以同该项数据服务的生命周期保持一致。 (三)数据集成本确认和计量 依据数据架构和数据处理流程,数据集的成本可以分为采集、清洗标注、集成和使用四个阶段。 1.数据服务企业的成本计量。数据服务企业的数据采集可以是利用自有信息化系统和数据设备采集的数据,也可以是外部采购的数据。相应地,数据集的成本就包括采集设备系统的折旧费用、设备系统运行费用、数据采集人员的薪酬成本和外部采购的买价和税费。数据采集通常是按项目(如卫星成像数据)或定期(如每月入库的论文数据)进行,因此成本核算对象可以考虑是按项目或按批次。 从数据架构看,数据采集阶段形成的源数据并不会直接使用,而是会先复制到贴源层进行数据清洗和标注等加工处理后投入使用。因此,数据清洗标注也通常按项目或按批次进行,数据采集成本可以在研发支出归集后全额结转入对应的数据清洗标注项目或批次。 数据服务企业的数据清洗标注工作部分是由专门的设备系统自动完成的,部分是需要人工来完成的。数据清洗标注后的贴源层数据集成本包括数据采集成本、数据清洗标注设备系统折旧及运营费用、数据清洗标注人员的薪酬成本等。 经过清洗标注后的数据通过专门的设备系统进行数据集成,生成各类中间表。在数据服务中,后台系统调用的几乎都是中间表数据,因此贴源层数据集的成本更适合在研发支出归集后全额结转计入对应的数据集成项目或批次中。数据集成的成本主要包括贴源层数据集的成本、数据集成设备系统的折旧和运营费用。 笔者建议中间表集成按项目或批次进行研发成本归集,如果集成后生成多张中间表的,则按数据量(记录量和字段量)将项目或批次研发成本结转为不同的中间表数据资产。 数据服务企业对外提供数据服务主要通过动态方式调用中间表数据,因此,数据展示层并不形成独立的数据资产。从调用方式上看,中间表可以分为某项数据服务专用中间表和多个数据服务共同的中间表,因此中间表的摊销费用可以直接计入某项数据服务或通过公共费用归集后分摊计入不同数据服务。分摊依据可以考虑采用数据访问量和数据输出量。除了分摊的中间表成本外,数据服务成本还包括前端界面、后台系统、IDC(数据中心)费用和客服费用等成本。 综上所述,从实物资产管理角度看,数据服务企业的主数据、业务源数据、贴源层数据、中间层数据都需要建立资产卡片进行管理;但从价值核算角度看,中间层数据集才是适合作为无形资产数据资源入表的资产。此外,从业务逻辑看,数据的采集、加工和集成是周期性进行的,因此,数据资源入表应该具有明显的周期性入表的特点。从财务报表列报的角度看,数据资源开发支出应当持续发生和留存,并按企业特定的周期节拍(如按月、按季度等)结转为无形资产。不具备这个数据特征的企业,很可能是将软件系统或平台列报为了数据资源,或者是识别出的数据资源已经不具备使用和资本化的条件,已经入表的数据资源存在减值迹象。 2.非数据服务企业的成本计量。非数据服务企业对外提供数据服务,如果是利用原有主业的业务源数据、贴源层数据和中间表数据的,数据资源成本已经被主业吸收,不需单独核算。但从数据资源资产实物管理角度看,也建议企业建立资产卡片加强实物管理。 如果提供数据服务需要对原有数据进行补充采集、清洗标注和集成,可以参考数据服务企业的数据资源管理和核算模式,将新增的中间表作为数据资源无形资产入表核算。