当“数据”被写成“信息”：若干专业文本中的概念偷换

发布日期：2026-06-17浏览人数：0

近来读到一些与数字经济、数据要素、大数据治理相关的官方或半官方文本，发现其中有两种表述反复出现：一种，是将数据界定为“任何以电子或者其他方式记录的可识别信息”；另一种，是将数据笼统分为“个人数据、企业数据、公共数据”三大类。

这样的写法，看上去简明，甚至显得颇为顺手，仿佛几句话就把数字时代最关键的对象讲清楚了。但问题恰恰也在这里：表面上是在下定义，实际上却可能是在跳过定义；表面上是在分类，实际上却可能是在混淆分类。

这不是文字上的小瑕疵，而是数字经济讨论中的一个基础问题。因为数字经济时代最核心的治理对象，恰恰就是“数据”；而若对数据的层级、属性与分类方式认识不清，后续关于流通、交易、授权、权益、责任、收益分配的制度安排，便很容易从起点上埋下逻辑冲突。

其中，最值得警惕的第一点，是将“数据”直接定义为“任何以电子或其他方式记录、可识别的信息”。这样的表述，在一些国际法规或规范性文件中并非全无先例，但若将其作为一般性、基础性的定义反复使用，便显得过于粗疏，也过于轻率。

问题在于，数据与信息本来就不是同一个层次的事物。数据更接近于对对象、行为、状态、关系的符号化刻印，是可采集、可存储、可计算、可调用的基础材料；信息则是数据经过整理、解释、关联之后所呈现出的意义内容。换言之，数据偏向原始表征，信息偏向意义生成；数据是机器处理的对象，信息则更接近被认知、被理解、被传达的结果。

若把数据直接等同于信息，表面上似乎简化了问题，实际上却抹平了数字世界中最关键的层次差异。大量机器日志、传感器信号、行为轨迹、中间表征、模型特征、向量嵌入，究竟算不算“信息”？若都算，信息概念便被无限扩张；若不算，那么今天数字经济中大量真实存在、并且极其重要的数据对象，又会被排除在外。这样一种定义，不仅在理论上站不住，在实践中也难以支撑未来的数据治理与智能产业发展。

真正稳妥的写法，不应当是“数据就是信息”，而应当明确二者之间的层次关系。至少应承认：数据是对世界的记录、采集、生成与表征，信息则是数据被加工、组织和解释后所承载的意义。若连这一层基本区分都没有，后面许多制度设计其实都会失去支点。

与此同时，上述文本中常见的另一种处理方式，是把数据概括为“个人数据、企业数据、公共数据”三大类。这样的三分法看似简洁，实际上却把不同维度的概念硬性并列在一起，造成明显混乱。

“个人数据”更多是从权益关联和保护逻辑上说的，强调数据与特定自然人之间的关系；“企业数据”则带有持有主体、经营属性甚至商业属性的混合意味；“公共数据”又往往指向开放利用、公共治理或公共供给属性。三者根本不是同一分类标准之下的并列项，而是来自不同维度的概念。把它们摆在同一条线上，好像互不交叉、彼此排斥，反而遮蔽了现实中数据属性高度重叠、权利关系极为复杂的真相。

以医疗场景为例，一个人的血压、影像、检验指标，当然与其人格权益密切相关，可以被视为个人相关数据；但这些数据同时又进入医院的诊疗、管理、科研与质量控制体系，也构成医疗机构业务数据的重要组成部分；若经过脱敏、汇聚并纳入公共卫生治理体系，又可能成为具有公共治理价值的数据资源。那它到底是个人数据，还是医院数据，还是公共数据？如果相关文本预设这些类别边界清晰、互不重叠，那么一旦进入现实场景，这种分类就会立刻失效。

再如气象、地震、河流、海洋、土地等观测数据，也同样说明问题。它们未必天然就是“公共数据”。由政府部门依法监测形成的，可能首先属于政务数据或国家治理数据；经过制度安排对社会开放的，才可能进一步具有公共开放数据属性；若由科研机构或个人长期自主观测并积累而成，又可能涉及采集主体权益与成果归属。可见，“关于公共事务的数据”与“可供公众使用的数据”，并不是同一个概念；“政府掌握的数据”与“公共数据”之间，也不能简单画等号。

因此，这类文本更深层的问题，不只是没有区分政府数据与公共数据，而是根本没有交代：它究竟是在按什么标准给数据分类。是按数据所描述的对象分类，还是按采集与持有主体分类，还是按权利属性与法律保护方式分类，还是按开放程度与流通方式分类？如果这些维度不先分开，所谓分类就只会停留在口号式概括层面，难以进入制度操作层面。

从更严谨的角度看，数据至少应当在几个不同维度上分别讨论。

首先，是对象属性。也就是这些数据到底描绘什么、指向什么。这里可以包括个人相关数据、组织运营数据、自然环境数据、设施设备数据、社会运行数据等。这一维度解决的是“数据关于什么”的问题。

其次，是形成或持有主体。也就是数据是谁生成的、谁采集的、谁掌握的、谁保管的。个人持有数据、企业持有数据、政府持有数据、平台持有数据、第三方机构持有数据，都属于这一维度。这一维度解决的是“数据在谁手里”的问题。

再次，是法律与治理属性。这里讨论的不是数据描绘谁，也不是谁持有它，而是它应受到何种法律规则约束、具备何种制度属性。比如个人信息、商业秘密、政务数据、公共开放数据、重要数据、国家核心数据等，都属于这一层面。这一维度解决的是“数据应当如何被治理”的问题。

最后，是经济利用属性。数据进入流通、交易、授权、开发利用时，还会呈现不同形态，例如原始数据、脱敏数据、汇聚数据、衍生数据、可授权使用的数据产品等。这一维度解决的是“数据如何进入数字经济活动”的问题。

只有把这些维度拆开，才能避免“谁的数据”“关于谁的数据”“谁持有的数据”“谁有权使用的数据”被混成一团。否则，分类越简单，现实越混乱；概念越省事，制度越失焦。

说到底，数字经济并不是一句“数据成为关键生产要素”就算解释完了。数据之所以成为关键生产要素，不仅因为它能被存储和计算，更因为它的形成机制、权利结构、流通方式、价值实现路径，都与传统资源有本质不同。也正因此，数字经济时代最忌讳的，恰恰是对“数据”采取一种大白话式、宣传口号式、行政概括式的处理方式。

今天不少文本在谈数字经济和大数据时，往往喜欢先用几句看似明确的话把数据定义掉，再用一个三分法把数据分类掉，仿佛问题已经获得了整齐的秩序。但事实上，这种整齐很可能只是纸面上的整齐。真正的数据世界，从来不是这样平面的。它有层次，有重叠，有流转，有转换，有主体交织，也有权利叠加。越是面对这样一个复杂对象，越不能在概念起点上图省事。

官方文本当然需要简洁，制度表达也不可能写成学术专著。但简洁不等于扁平，概括也不等于偷换。尤其是在数字经济与大数据这样一个仍在快速演化、牵动广泛权益与治理结构的领域，概念上的含混，往往不是语言问题，而会进一步演变为治理问题、授权问题、确权问题、流通问题和责任问题。

所以，真正值得警惕的，并不是某一句话写得不够漂亮，而是一些文本在最核心的两个问题上显得过于仓促：一是没有建立数据与信息之间的层级意识，二是没有建立数据分类的多维意识。前者使数字经济的对象基础变得模糊，后者又使数据治理的边界基础变得含混。

数字时代最怕的，不是复杂，而是把复杂的问题过度简单化。概念一旦被偷换，制度便会跟着漂移；分类一旦失去维度，权责便会跟着失焦。数字经济和大数据相关讨论若要真正立得住，首先必须在概念上站稳脚跟。否则，文本写得再多，也可能只是把模糊写进制度，把混乱提前固化。

本文为《数智世界》原创作品，作者袁道唯为本刊总编辑。