6

详解6G系统数据治理方案的设计要点和原则

 2 years ago
source link: https://network.51cto.com/article/701843.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client
详解6G系统数据治理方案的设计要点和原则-51CTO.COM
详解6G系统数据治理方案的设计要点和原则
作者:童文 朱佩英 2022-02-17 20:25:08
各种运营管理任务,比如配置、性能监控、故障管理,都需要用到这些数据。这些数据还将作为知识经验与其他系统和业务领域交流,产生更广泛的价值。

本文转载自微信公众号「大数据DT」,作者童文 朱佩英。转载本文请联系大数据DT公众号。

数据的使用范围不同,数据治理本身不论是经济内涵还是技术内涵也不同。数据治理是指通过相关流程和技术,对数据进行管理、维护和深度开发,获得可以作为组织关键资产的高质量数据。

每个移动网络运营商(Mobile Network Operator,MNO)将移动通信系统中产生的数据按技术域隔离并单独存储,这些技术域包括无线接入网(Radio Access Network,RAN)、核心网(Core Network,CN)、传输网(Transport Network,TN)以及运行、管理和维护(Operation, Administration, and Maintenance,OA&M)等。不同网元、不同参与者拥有的数据不够公开透明,由此带来的数据孤岛是数据采集和共享中的主要瓶颈。

另一方面,大型OTT(Over-The-Top)业务公司在数据治理和变现策略方面(如数据存储、分析服务、API接口)积累的专业知识远远领先于电信领域公司。

6G系统的数据治理方案将为AI和感知业务提供有力支持,将催生新的业务方式和系统特性。

一、设计要点和原则

数据治理的范围远不止是传统的数据采集与存储。总体上,系统设计需要考虑四个方面,如图1所示。

41333f8900e596fef8b936d2040ff1aeffc629.webp

▲图1 数据治理的设计要点

1. 数据可获得性和质量

数据可获得性和质量是AI能否在各行业中得到应用的最大挑战之一。提高数据的可获得性,意味着数据不能仅仅来自单个系统、单个领域,而需要同时来自多个系统的不同领域。这就提出了一个根本问题:如何打破(多厂商、多运营商、多行业之间的)物理边界,让数据进入异构数据海洋?

一旦收集并利用了原本分散且相互隔离的数据,另一个问题随之而来:如何提高数据的质量?海量数据的获取,并不意味着获取的数据是可用的、高质量的。同时,在考虑降低数据处理计算复杂度和能耗的同时,还需要提高数据处理效率。

2. 数据主权

随着社会的全数字化转型,数据主权、数据安全和隐私的重要性空前突出,很多国家都制定了隐私保护的法律法规。服务提供商也在不断更新它们的隐私保护方案,主要国家政府也正在制定或已发布了数据管理相关的规定。

例如,欧盟2018年颁布的《通用数据保护条例》(General Data Protection Regulation,GDPR)就从欧盟层面上规范了数据的使用。2019年,中国颁布了《数据安全管理办法》,与2016年颁布的《网络安全法》一起构成了中国版的GDPR。美国也正在实施隐私相关的法律,例如加州的《消费者隐私保护法》(Consumer Privacy Act)已于2020年1月正式生效。

如何充分挖掘数据的内在价值,为各种业务提供精确支撑的同时兼顾隐私保护,尊重数据主权,已成为近年来的热门话题。6G系统设计应当考虑到监管的不确定性,尤其是存在于不同地区之间的监管差异带来的不确定性。

3. 知识管理

一般来说,知识可以看作是经过处理后的具有特定用途或价值的数据,可以被不同技术和业务领域的物理实体或虚拟实体直接使用。

知识管理包括知识的生成、更新和开放。就知识的生成和更新来说,我们需要仔细把关数据的来源和质量,采取措施拦截不可靠甚至是恶意的数据源产生的低质量和有害数据。而将知识作为一种能力对外开放,则需要适合的平台和接口设计。

4. 法律问题

各种各样的传感器和其他技术可以实时产生数据,这让数据收集和使用越来越复杂和敏感。数据生成能力的提升不仅提供了新的数据流和内容类型,同时也引发了政策和法律对数据滥用的关注:别有用心的机构或政府可能利用这些能力达到社会控制的目的。

同时,新技术能力也让普通人难以分辨技术内容的真假。比如,普通人就很难区分一段真实视频和一段“深度伪造”(deep fake)的视频。维

护技术的社会利益和防止技术能力被用于实施社会控制、剥夺自由之间存在一种脆弱的平衡,如何保护这一平衡,变得愈发重要。为了识别欺诈行为、防止先进技术被滥用,需要更严格的法律和政策手段。

二、架构特点

独立的数据面是数据治理系统设计中的关键特性(如图2所示),它将为6G系统提供数据相关的通用能力,从而为6G系统内部和外部功能提供透明、高效、内生安全和隐私保护。下文将介绍基本概念和相关网络功能和业务。

c96a3e846b7c251dea7397bffdc73d5dfbc409.webp

▲图2 独立的数据面实现完整的数据治理

1. 独立数据面

独立数据面旨在实现6G系统的数据治理方案,它处理的数据来自不同业务实体。不论数据来自哪里,数据的整个生命周期都在这一平面完成处理,包括数据生成与收集、数据处理与分析、数据业务发放。

因此,独立的数据面可以为外部商业实体(如汽车、制造和医疗等垂直行业)提供数据服务,也可以为6G系统本身(如控制面、用户面和管理面)提供网络自动化和优化服务。网络运行相关的配置、状态、日志,以及用户个人数据、传感器数据、其他各方提供的数据都是收集的对象。

收集到的数据会形成丰富的数据资源,这些数据资源可以以分布式的形式被组织起来。为了防止直接将原始数据用于AI和感知等应用而导致的问题,原始数据在被使用之前通常需要预处理(如匿名化、数据格式再塑、去噪、转换、特征提取等)。

为确保数据完整、过程合规,数据处理过程中所涉及的政策(如地理限制、国家或地区隐私法规等规定),不论是否来自监管层面,都默认需要遵守。将数据传递至数据面时,还需要遵守数据合同中约定的数据使用权利和义务。数据脱敏是保护隐私的关键,数据面需要提供这一服务。

上述由数据面提供的所有服务,都由自包含的OA&M系统来运营管理。

数据面的另一重要功能是基于数据收集、处理和编排生成知识。为了协调来自不同数据源的数据的处理和传输,知识的生产也需要按照合同要求进行。

随着新的数据源、数据模型、数据主题被数据客户关注和使用,数据治理框架可以不断演进、不断充实。因此,数据治理框架的运营管理和框架的实时发展是可以并行的。

由于数据面是一个逻辑概念,所以可以通过集中式分层架构实现,也可以作为一种分布在边缘或深度边缘节点上的逻辑功能实现。接下来我们将探讨数据面的一些关键要素。

2. 数据治理的多方角色

数据治理生态系统包括两个维度的角色:从数据客户到数据提供者、从数据所有者到数据管理者。不同的角色可以由不同的业务实体担任。因此,6G中的数据治理是典型的多方参与场景,使用6G系统提供的数据或知识的数据客户、6G系统的数据提供者都可能参与其中。

6G可以有自己的数据治理框架,也可以在自身领域知识的基础上,与其他行业参与者一起构建数据治理框架。也就是说,数据治理框架可能存在不同的演进或发展路线。因此,不同业务实体之间在运营阶段如何确定数据权利非常重要,可以借助区块链等去中心化技术解决这一问题。

3. 数据资源

数据资源的内容非常丰富,包括结构化数据、非结构化数据、预处理数据、后处理数据、原始数据。从无线环境中高效收集数据(如移动性等用户行为数据和网络状态数据)是数据治理的前提。然后可以使用智能方法分析数据、将数据衍生的知识传输给内外部客户。因而有必要了解数据的来源。

85b8e816182d3e4105b0258eefa38b904e973b.webp

▲图3 主要数据源类别

图3展示了6G系统中一些主要的数据源类别。

  • 基础设施:基础设施即通信系统,包括RAN、TN和CN等各类物理和虚拟资源,以及云、边缘和深度边缘等计算资源。基础设施内部产生的数据包括计算资源信息、通信资源信息(如某一网络功能的状态)、感知信息(如来自RAN的感知信息),以及某些用户信息(如移动性信息、位置和相关上下文)。
  • 运营支撑系统(Operation Support System,OSS):这一层的数据包括所有OA&M相关的数据,如物理设备状态、系统运行信息、业务发放信息。
  • 业务支撑系统(Business Support System,BSS):这一层的数据包括所有与业务逻辑相关的数据,如客户信息、伙伴关系管理信息。更重要的还有消费者和企业客户的订阅数据,对于这些数据,他们应拥有完全所有权和控制权。
  • 行业通信系统:6G行业应用场景中,收集的数据可能还包括行业相关OA&M数据信息、行业用户信息(如流量规律和移动性数据)以及存储在云端的业务/服务数据。此类数据的所有权应完全属于行业客户。
  • 终端:来自终端侧的数据包括计算和通信资源、业务使用概况、感知知识等。此类数据的所有权应完全属于终端用户。

4. 数据搜集

6G中,数据治理的一个主要作用就是提供合适的方法构建数据资源,这需要合适的架构和网络功能的支持,构建数据资源的第一步是收集数据,这一步有如下几个关键动作:

  • 与数据源建立协议(如数据授权)和安全连接。
  • 接收数据收集需求,确定收集范围,根据需求确定收集的地点、时间和方式。
  • 将数据属性告知数据源。
  • 从数据源收集数据并入库。
  • 对数据库中的数据进行操作和维护。

5. 数据分析

在管理数据资源的基础上,为不同类型客户提供数据分析服务便成为可能。有如下四种数据分析服务可以提供:

  • 描述性分析挖掘历史数据的统计信息,提供网络洞察信息,如网络性能、流量模型、信道状况、用户等方面。
  • 诊断性分析可以实现网络故障和业务损伤自主检测,识别网络异常根因,从而提升网络可靠性和安全性。
  • 预测性分析利用数据来预测未来事件,如流量模式、用户位置、用户行为和偏好、资源可用性,甚至是故障。
  • 建议性分析基于预测性分析为资源分配、内容展示等提供建议。

数据面提供的知识来自数据分析服务,提供的知识包括主动知识(如行动建议)和被动知识(如信息共享和客户的行动决定)。

数据分析服务可以基于客户需要,并根据客户需求定制。数据面应按需多维度开放服务和数据,表1列举了可向客户提供的服务类型的示例。可以预见的是,实际的客户类型比表格中所列举的更丰富,客户对数据分析的需求和使用场景也各不相同。

▼表1 数据面提供的多维数据服务示例

c6e794389bb3172a4d0297f235e0b095789777.webp

6. 数据脱敏

收集和储存敏感数据,就涉及了隐私风险,需要承担隐私保护责任。数据脱敏是回应隐私关切、实现法律遵从的重要动作,对于在6G设计中支持AI和感知业务也尤为重要。

特别是对于AI任务,需要考虑跨领域的设计。近来有大量关于AI领域中差分隐私(differential privacy)的研究,探讨如何将单个设备的训练数据匿名化。

模型训练和AI推理过程中的数据脱敏在6G设计中必不可少。实现差分隐私的方法包括:在不影响数据统计属性的前提下为训练数据加入噪声,训练模型仍然可以捕捉到原始数据集的特征;使用加密技术,使机器学习基于加密的(而非解密的)数据进行。还有一种方法是,让设备发送模型参数,而不是训练数据,比如说联邦学习和拆分学习。

在这一过程中存在一个风险,如果有完全掌握学习方法的内部人员心怀不轨,那么他可以利用模型逐渐收敛的过程构造与训练数据类似的信息。例如在联邦学习中,信息可能因此被泄露给恶意设备。

不论何种学习方法,数据脱敏都是需要考虑的问题。因此,我们需要在这个前提下,思考如何处理不同学习方法之间的差异和学习方法自身的局限性。

关于作者:童文 博士,华为无线CTO,华为5G首席科学家,华为Fellow,IEEE Fellow,加拿大工程院院士,曾获IEEE通信学会杰出行业领袖奖、费森登奖章。朱佩英 博士,华为无线研究领域高级副总裁,华为Fellow,IEEE Fellow,加拿大工程院院士。

本文摘编自《6G无线通信新征程:跨越人联、物联,迈向万物智联》,经出版方授权发布。(ISBN:9787111688846)


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK