当“数据”被写成“信息”:若干专业文本中的概念偷换
近来读到一些与数字经济、数据要素、大数据治理相关的官方或半官方文本,发现其中有两种表述反复出现:一种,是将数据界定为“任何以电子或者其他方式记录的可识别信息”;另一种,是将数据笼统分为“个人数据、企业数据、公共数据”三大类。
这样的写法,看上去简明,甚至显得颇为顺手,仿佛几句话就把数字时代最关键的对象讲清楚了。但问题恰恰也在这里:表面上是在下定义,实际上却可能是在跳过定义;表面上是在分类,实际上却可能是在混淆分类。
这不是文字上的小瑕疵,而是数字经济讨论中的一个基础问题。因为数字经济时代最核心的治理对象,恰恰就是“数据”;而若对数据的层级、属性与分类方式认识不清,后续关于流通、交易、授权、权益、责任、收益分配的制度安排,便很容易从起点上埋下逻辑冲突。
其中,最值得警惕的第一点,是将“数据”直接定义为“任何以电子或其他方式记录、可识别的信息”。这样的表述,在一些国际法规或规范性文件中并非全无先例,但若将其作为一般性、基础性的定义反复使用,便显得过于粗疏,也过于轻率。
问题在于,数据与信息本来就不是同一个层次的事物。数据更接近于对对象、行为、状态、关系的符号化刻印,是可采集、可存储、可计算、可调用的基础材料;信息则是数据经过整理、解释、关联之后所呈现出的意义内容。换言之,数据偏向原始表征,信息偏向意义生成;数据是机器处理的对象,信息则更接近被认知、被理解、被传达的结果。
若把数据直接等同于信息,表面上似乎简化了问题,实际上却抹平了数字世界中最关键的层次差异。大量机器日志、传感器信号、行为轨迹、中间表征、模型特征、向量嵌入,究竟算不算“信息”?若都算,信息概念便被无限扩张;若不算,那么今天数字经济中大量真实存在、并且极其重要的数据对象,又会被排除在外。这样一种定义,不仅在理论上站不住,在实践中也难以支撑未来的数据治理与智能产业发展。
真正稳妥的写法,不应当是“数据就是信息”,而应当明确二者之间的层次关系。至少应承认:数据是对世界的记录、采集、生成与表征,信息则是数据被加工、组织和解释后所承载的意义。若连这一层基本区分都没有,后面许多制度设计其实都会失去支点。
与此同时,上述文本中常见的另一种处理方式,是把数据概括为“个人数据、企业数据、公共数据”三大类。这样的三分法看似简洁,实际上却把不同维度的概念硬性并列在一起,造成明显混乱。
“个人数据”更多是从权益关联和保护逻辑上说的,强调数据与特定自然人之间的关系;“企业数据”则带有持有主体、经营属性甚至商业属性的混合意味;“公共数据”又往往指向开放利用、公共治理或公共供给属性。三者根本不是同一分类标准之下的并列项,而是来自不同维度的概念。把它们摆在同一条线上,好像互不交叉、彼此排斥,反而遮蔽了现实中数据属性高度重叠、权利关系极为复杂的真相。
以医疗场景为例,一个人的血压、影像、检验指标,当然与其人格权益密切相关,可以被视为个人相关数据;但这些数据同时又进入医院的诊疗、管理、科研与质量控制体系,也构成医疗机构业务数据的重要组成部分;若经过脱敏、汇聚并纳入公共卫生治理体系,又可能成为具有公共治理价值的数据资源。那它到底是个人数据,还是医院数据,还是公共数据?如果相关文本预设这些类别边界清晰、互不重叠,那么一旦进入现实场景,这种分类就会立刻失效。
再如气象、地震、河流、海洋、土地等观测数据,也同样说明问题。它们未必天然就是“公共数据”。由政府部门依法监测形成的,可能首先属于政务数据或国家治理数据;经过制度安排对社会开放的,才可能进一步具有公共开放数据属性;若由科研机构或个人长期自主观测并积累而成,又可能涉及采集主体权益与成果归属。可见,“关于公共事务的数据”与“可供公众使用的数据”,并不是同一个概念;“政府掌握的数据”与“公共数据”之间,也不能简单画等号。
因此,这类文本更深层的问题,不只是没有区分政府数据与公共数据,而是根本没有交代:它究竟是在按什么标准给数据分类。是按数据所描述的对象分类,还是按采集与持有主体分类,还是按权利属性与法律保护方式分类,还是按开放程度与流通方式分类?如果这些维度不先分开,所谓分类就只会停留在口号式概括层面,难以进入制度操作层面。
从更严谨的角度看,数据至少应当在几个不同维度上分别讨论。
首先,是对象属性。也就是这些数据到底描绘什么、指向什么。这里可以包括个人相关数据、组织运营数据、自然环境数据、设施设备数据、社会运行数据等。这一维度解决的是“数据关于什么”的问题。
其次,是形成或持有主体。也就是数据是谁生成的、谁采集的、谁掌握的、谁保管的。个人持有数据、企业持有数据、政府持有数据、平台持有数据、第三方机构持有数据,都属于这一维度。这一维度解决的是“数据在谁手里”的问题。
再次,是法律与治理属性。这里讨论的不是数据描绘谁,也不是谁持有它,而是它应受到何种法律规则约束、具备何种制度属性。比如个人信息、商业秘密、政务数据、公共开放数据、重要数据、国家核心数据等,都属于这一层面。这一维度解决的是“数据应当如何被治理”的问题。
最后,是经济利用属性。数据进入流通、交易、授权、开发利用时,还会呈现不同形态,例如原始数据、脱敏数据、汇聚数据、衍生数据、可授权使用的数据产品等。这一维度解决的是“数据如何进入数字经济活动”的问题。
只有把这些维度拆开,才能避免“谁的数据”“关于谁的数据”“谁持有的数据”“谁有权使用的数据”被混成一团。否则,分类越简单,现实越混乱;概念越省事,制度越失焦。
说到底,数字经济并不是一句“数据成为关键生产要素”就算解释完了。数据之所以成为关键生产要素,不仅因为它能被存储和计算,更因为它的形成机制、权利结构、流通方式、价值实现路径,都与传统资源有本质不同。也正因此,数字经济时代最忌讳的,恰恰是对“数据”采取一种大白话式、宣传口号式、行政概括式的处理方式。
今天不少文本在谈数字经济和大数据时,往往喜欢先用几句看似明确的话把数据定义掉,再用一个三分法把数据分类掉,仿佛问题已经获得了整齐的秩序。但事实上,这种整齐很可能只是纸面上的整齐。真正的数据世界,从来不是这样平面的。它有层次,有重叠,有流转,有转换,有主体交织,也有权利叠加。越是面对这样一个复杂对象,越不能在概念起点上图省事。
官方文本当然需要简洁,制度表达也不可能写成学术专著。但简洁不等于扁平,概括也不等于偷换。尤其是在数字经济与大数据这样一个仍在快速演化、牵动广泛权益与治理结构的领域,概念上的含混,往往不是语言问题,而会进一步演变为治理问题、授权问题、确权问题、流通问题和责任问题。
所以,真正值得警惕的,并不是某一句话写得不够漂亮,而是一些文本在最核心的两个问题上显得过于仓促:一是没有建立数据与信息之间的层级意识,二是没有建立数据分类的多维意识。前者使数字经济的对象基础变得模糊,后者又使数据治理的边界基础变得含混。
数字时代最怕的,不是复杂,而是把复杂的问题过度简单化。概念一旦被偷换,制度便会跟着漂移;分类一旦失去维度,权责便会跟着失焦。数字经济和大数据相关讨论若要真正立得住,首先必须在概念上站稳脚跟。否则,文本写得再多,也可能只是把模糊写进制度,把混乱提前固化。
本文为《数智世界》原创作品,作者袁道唯为本刊总编辑。
