数据乎?信息乎?从二者概念混淆到对数字社会创新制约的分析

    |     2026年1月26日   |   客世原创   |     评论已关闭   |    119

今天看到“《湖北省数据条例》正式发布,10月1日施行”的报道,其中关于数据的定义是“数据,指任何以电子或者其他方式对信息的记录,包括公共数据和非公共数据”。这当然不是第一次分不清信息和数据的时候。实际上,这种现象在数字时代的立法实践中屡见不鲜。例如,在中国《数据安全法》中,数据被定义为“任何以电子或者其他方式对信息的记录”,这直接将数据视为信息的附属形式,看得出来制定者脑中依然是信息公开和信息隐私保护类似的思维框架。在欧盟的GDPR(通用数据保护条例)中,虽然强调个人数据保护,但也常常将数据与可识别信息等同,导致监管框架中二者界限模糊。这种混淆不仅源于立法者的实用主义考量——旨在覆盖广泛的数字资产——还反映了对数据本质的误解:数据本应是独立的比特序列,而非必然承载信息的载体。如果继续将二者捆绑,隐私、保密和安全的标签将过度扩展,挤压创新空间。从数据与信息的根本区别入手,我们来探讨数据的独立性、其在算法应用中的直接作用,以及混淆带来的风险,最终展望数字社会的正确路径。

数据与信息的根本区别:从比特到认知的跃迁

数据与信息之间存在根本性的区别,这种区别并非琐碎的语义游戏,而是关乎数字社会基础的认知框架。数据本质上是原始的、客观的比特序列或符号,例如电子载体中的0和1组合,可以数字化任何物理实体——从基因序列、原子结构,到环境变量如风速或紫外线变化。这些数据在孤立状态下,仅是无语境的原材料,缺乏内在含义。只有当数据被置于特定上下文中,通过人类或算法的介入进行加工、过滤和分析时,它才减少不确定性,转化为信息。信息则与人类的认知密切相关,是数据经过解读后形成的可识别形式、模式或感知。

这种观点符合DIKW模型(Data-Information-Knowledge-Wisdom),其中数据是基础层,信息是其加工产物,而知识和智慧则进一步演化。例如,一个原子结构的数字化表示(如座标和电子云密度)是纯数据;只有当科学家将其解读为分子键合模式时,它才成为信息。数据可以代表任何事物,却不一定包含信息。这一点在资产化过程中尤为突出。今天,我们鼓励将数据视为资产(如大数据经济中的生产要素),但其价值往往源于潜在的利用潜力,而非即时信息内容。数据资产的处理(如存储、交易)可以完全脱离信息层:企业可能囤积海量传感器数据(如物联网设备产生的日志),无需立即解读其含义,就能通过出售或分析变现。这与信息不同,后者总是与人类认知挂钩——如一份报告中的归纳指向判断,直接影响决策。

数据的独立性:比特序列的无意义本质

数据的独立性在于其比特序列的无意义本质。任何基因、原子或物理现象都可以被数据化,但这些数据本身并不必然携带“意义”。例如,传感器捕捉的温度读数或位置坐标,仅是比特流;它们对大多数人来说无信息价值,除非通过模型赋予解释。在数字社会中,这种独立性越来越重要:未来将涌现大量“无信息数据”,如量子计算的比特纠缠或环境监测的传感器阵列。这些数据无需转化为人类可懂的信息,就能直接生成洞见或行动。

在企业数据资产的层面,这种独立性尤为关键。现在,大家往往认为数据资产始终与客户有关联,如用户行为日志或个人信息。但实际上,许多数据与环境、物理对象数字化密切相关,而与人无关。例如,企业对货物、资源、矿产或设备的数字化监测——如供应链中的库存位置数据、矿产资源的地质扫描比特序列、设备运行的传感器读数(如振动频率或温度变化)——这些数据本质上是物理对象的多角度数字化记录,与个人隐私无直接联系。如果总是将这类数据与人的认知或隐私挂钩,就会过度限制其收集和利用,导致企业无法高效发展数字化转型。相反,承认这些数据的独立性,能让企业自由探索物联网或工业4.0的应用,推动资源优化和预测维护,而不被隐私法规束缚。在资产化语境下,数据的处理与信息无关。有些数据甚至可以跳过信息层,直接走向知识或决策场域。这挑战了传统观点:如果数据不需信息中介,就能产生价值,为什么还要强行绑定二者?正如在大数据经济中,企业视数据为独立资源,囤积和交易无需即时解读。

数据跳过信息直接应用于算法:从健康码到预测模型

数据可以“跳过”信息层,直接驱动算法输出,而无需人类认知介入。这在疫情健康码(防疫码)中体现得淋漓尽致。健康码系统依赖运营商的网络数据(如位置轨迹、时间戳和距离计算),通过算法评估感染风险:如果用户在特定时空范围内与已知病毒路径重叠,系统自动标记为高风险(如红码)。这里,用户无需知道具体“信息”(如谁感染了、何时何地暴露),算法直接基于原始数据生成决策。这不是信息驱动,而是数据驱动的模式识别:海量位置数据经过机器学习模型,输出概率评估,而非可解读的叙述。没有运营商的网络数据,这些根本不可能得出防疫码。

类似地,在车联网或台风预测中,数据的独立性更为明显。车联网依赖车辆传感器产生的多维度数据(如速度、位置、加速度),通过AI模型预测碰撞风险或交通流量。这些数据无需转化为人类可懂的信息,就能直接喂养算法,实现自动化控制。台风预测则涉及大气数据(如风速、湿度、紫外线变化、光线折射),这些原始读数可能对大多数人无意义,但通过多模态机器学习模型,可以构建预测路径和影响强度。如果有人发明新传感器捕捉空气元素或光线变量,这些数据将直接进入模型,而非先转化为“信息”。在未来数字世界中,这样的“无信息数据”将泛滥:从量子计算到环境监测,都能跳过认知层,直接生成预测和行动。这种“数据直通算法”的范式,体现了DIKW模型的灵活性:数据可以绕过信息,直接通向知识(模式)或智慧(预测)。

混淆数据与信息的风险:隐私、安全与创新空间的挤压

如果总是将数据与信息联系起来,就会轻易与隐私、保密和安全挂钩,从而缩小创新空间。在隐私保护领域,数据往往被视为敏感信息的载体,导致过度监管。例如,欧盟GDPR或中国《个人信息保护法》将个人数据(如位置比特)等同于隐私信息,强制匿名化或同意机制。这虽保护了用户,但也限制了数据在AI模型中的自由流动:如果每条数据都需评估“信息风险”,则台风预测或车联网的实时建模将面临合规障碍,创新成本飙升。

在数字经济中,这种混淆还影响数据所有权和使用权:数据被视为“资产”时,如果强制与信息绑定,企业可能因隐私担忧而放弃大规模收集,导致模型训练数据不足。反之,如果承认数据独立性(如匿名比特序列),创新空间将扩大:科学家能自由使用环境数据建模台风,而无需担心“信息泄露”。未来,如AGI(人工通用智能)模型所示,数据、信息、知识的融合将驱动多链生态,但前提是清晰区分,避免将所有数据一刀切地贴上“隐私”标签。

展望数字社会:区分以促进创新

从这一角度看,数字社会应聚焦数据独立于信息的潜力:通过机器学习和算法,大量“无意义”数据(如多维度传感器比特)能直接生成预测和决策,而非局限于人类认知的信息。这将重塑领域,如主动医学中的AI系统,能基于原始健康数据(而非解读信息)实现个性化干预。要实现这一愿景,我们需从政策层面推动区分:立法应强调数据资产的客观性,隐私保护仅针对真正的信息层(如可识别个人身份的数据),从而为创新留出空间。未来,我们要从过去的数据“垃圾”——那些被视为无用比特的积累——走向一个数据驱动的世界,整个世界都将由这些独立数据构建。如果什么都与别人的隐私信息放在一起,这个概念完全无法发展下去,与现在人工智能LWM(大世界建模)的大趋势也不符合。只有解绑二者,数字社会才能真正腾飞,避免因过度安全顾虑而扼杀潜力。

《客户世界》创办于2003年1月,是中国客户服务与数字运营行业的旗帜媒体。本文刊载于2025年蓐收辑(总第239期),本文作者袁道唯,本刊总编辑,中国信息协会数字经济专业委员会首席专家;联络编辑:edit@ccmw.net

转载请注明来源:数据乎?信息乎?从二者概念混淆到对数字社会创新制约的分析

相关文章

噢!评论已关闭。