8

智能可视化——数据分析领域的金手指

 3 years ago
source link: https://zhuanlan.zhihu.com/p/112745813
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

智能可视化——数据分析领域的金手指

支付宝(中国)网络技术有限公司 数据技术专家

摘要:智能可视化是什么?为什么如此重要?最快速地接触甚至参与智能可视化 —— AVA

什么是智能可视化

数据可视化,通俗来说,就是将数据制作成图表,以便直观了解数据和从数据中发现信息。它是数据和人之间的桥梁、数据分析链条上的“最后一公里”,价值很大。

“智能可视化”,粗暴地讲,就是把从数据到图表的制作过程给自动化掉。从数据“一键生成”图表、报表,甚至直指数据背后的信息、提供预测趋势,这便是将数据瞬间转化为价值的金手指。

“智能”两个字如今已经过度宣传了。其实,“智能”是个容易“时过境迁”的概念,当一种新的自动化技术出现时,大家容易感性认为这是“智能”的。而当这个技术成熟、普及以后,大家又会慢慢地不觉得它“智能”了。比如在功能手机时代,我们认为“智能手机”很高端,而在人手一部 iPhone 的今天,你对它的定义就只是“手机”。“智能”的概念,在当前的语境下,往往表示用当下最先进的技术实现的自动化功能

我们所谈的“智能可视化”,是指用当下前沿技术(通常包含人工智能技术)自动化生成可视化内容。为什么“智能”?其实是这个方向的技术研究和应用刚刚起步,还不成熟,还不能做到具有通用性,但又非常有发展潜力。因此,智能可视化技术研发和商用化的起步需要明确一个比较具体的方向。

商业智能与增强分析

对于一些复杂的专业可视化领域(比如 CT 成像),想要设计具有通用性的智能可视化方法是非常难的。通常我们说的“智能可视化”,是指在“商业智能”领域的可视化。商业智能可视化的默认目标用户是没有专业级别的可视化知识的。这就意味着图表类型不能设计得过于复杂,图表的种类也必须有所限制。这样就保障了形式的通用性、有限性和可读性。另一方面,商业智能分析会给企业和组织带来巨大的价值,在商业中被广泛运用,具有广泛的实用价值。

图片翻译自 qlik.com

商业智能可视化指在商业智能理论与方法发展过程中与数据可视化融合的概念和方法。商业智能的目标是将商业和企业运维中收集的数据转化为知识,辅助决策者做出明智的业务经营决策。数据包括来自业务系统的订单、库存、交易账目、客户和供应商等,以及其他外部环境中的各种数据。从技术层面上看,商业智能是数据仓库、联机分析处理工具和数据挖掘等技术的综合运用,其目的是使各级决策者获得知识或洞察力。自然地,商业智能可视化专门研究商业数据的智能可视化,以增强用户对数据的理解力。
—— 《数据可视化》陈为等编著

在“类商业智能可视化”场景中,用户群体各不相同。目标用户主要是“需要获得数据背后的信息的人”,进一步是“需要自己做数据分析的人”,更进一步是“需要制作图表的人”。在现实生活中,这样的受众群体可能是数据分析师、数据产品开发人员、产品经理、咨询顾问、政府公务员等,他们是最高频的用户。当然也有可能是企业高管、餐厅老板、学校校长等决策者。还有可能扩展到每一个个体社会角色,比如老师、医生、销售员。只要是能够接触到数据(不管是大到一整个企业数据源,还是小到一份 Excel 表格)并需要从数据中得到信息的人,都可以是智能可视化的受众。

同样,商业智能产品也有不同级别。无论是什么级别的产品,在商业数据分析上都绕不开几个步骤:

  • 提出分析需求
  • 可视化分析结果

只不过,不同的受众群体应该对应不同的形式。比如导入数据,对于普通用户来说,可能就是把一个 Excel 表格拖入网页。对于专业用户而言,则可能需要解决连接各种数据库的需求。

因此,通常我们目前所谈的“智能可视化”,是指在“类商业智能可视化”领域内,通过自动化的形式快速满足各类用户的数据分析需求。借助其能力,我们可以将商业智能推向“增强分析”时代。

何为“增强分析”?简而言之,就是通过人工智能技术,为传统的商业分析流程提供更自动化、更细粒度、更精准的辅助能力,从而满足分析人员更多的分析需求。

业内著名的技术研究和分析机构 Gartner 预测,到2020年,增强分析将成为推动分析和商业智能、数据科学和机器学习平台、嵌入式分析新增采购消费的主要驱动力。增强分析的概念从而广受关注。

技术的积累与探索

从技术角度来看,不同的产品形式除了本身开发技术的不同,其底层核心技术是一致的。为了实现可视化报表的自动生成,有这么几个基础技术需要准备:

  • 数据集理解 - 自动分析用户提供的数据,包括全表统计、特征识别、字段间关系识别,等
  • 分析意图识别 - 理解用户的分析需求和目的,可以由用户主动输入,也可以根据用户的交互行为推测
  • 洞察发现 - 从数据中发现潜在信息和价值,筛选出相关的数据字段
  • 自动化图表绘制 - 无需用户操作直接生成图表,根据图形语法、图表配置映射等方式将图表渲染出来
  • 自动报表配置 - 自动生成报表,参考分析目的和图形样式等方面来生成报表布局、配置控件、图表联动,等

实现了这些核心的技术以后,不同的产品形式无非是对这些技术的不同封装方式和不同封装程度而已。

关于这些技术,已经有不少前人开了路。比如华盛顿大学的 IDL 实验室研发了一整套服务于增强分析的工具,其成果以一个数据可视化浏览工具 Voyager 来呈现,这个工具支持一定程度的图表推荐功能。除此以外,IDL 实验室从数据分析到图形语法、图表绘制都有比较完整的理论体系和技术生态。

Voyager

除了学术领域,商业领域也已经有比较成功的尝试。比如微软的商业智能软件 Power BI 中就有一个“快速洞察”的功能 Quick Insights,它有针对性地数据集进行扫描,然后发现字段之间的“洞察“,比如异常值、相关性等,并以可视化和文本描述的形式展现出来。

v2-20695890f546ae9a4aebdd955113f77e_b.jpg
Power BI 的 Quick Insights 功能

智能可视化的意义

为什么要做智能可视化,是因为当下和未来都看得见的紧迫的需求。

产业趋势

大数据产业链条上有诸多环节,包括数据获取预处理存储挖掘和分析可视化等等。行业的发展状态,基本上遵循从链条前端向后端发展的大趋势。

目前来看,虽然大数据被宣传得人尽皆知,但是大部分企业仍然停留在链条前端的环节。或者说,大部分企业和组织都还在做数据方面的基础设施建设。大量的企业仍然是“数据管理基本靠Excel,分析汇报基本靠PPT”的状态,其中不乏世界500强的公司(中的一些部门)和大量的国企。即便是之前做过数据库之类基础设施的企业,也在链条前端环节存在数据收集方式不规范、数据质量差等问题。互联网企业在这方面要有优势一些。总的来说,目前大数据产业的发展波峰还处在链条前端的环节。

但是,随着大数据、人工智能概念的普及,大量的机构决策者意识到发展数据能力的重要性。于是目前整体产业在链条前端发展地如火如荼,并且发展波峰正快速向链条中后端移动。已经拥有健全的基础设施、足量的数据的机构,已经在投入大量的力量来发展数据分析和数据挖掘。从这样的趋势来看,数据可视分析作为链条中后端的交互式环节,很快也会迎来发展高峰。而数据可视化整体,作为链条的末端,也将在数年后迎来发展波峰。因此,数据可视化是未来非常有前景的技术。

分析提效

迎来发展高峰,同时也意味着需求量的爆炸。目前的数据可视化技术在大范围商用上,基本还停留在大屏看板等领域。然而这些领域从目前来看,开发效率还是比较低下的。

目前企业对数据可视化的理解和认知还没有达到“普及”的程度。运用的工具还很原始,且不统一。报表设计的过程还不专业,甚至存在很多错误设计。而技术人员在开发时也往往只会考虑代码和实现层面,而不会考虑图表的选择、用户的阅读交互体验。由于可视化技术的使用者对于可视化专业知识的缺乏,导致可视化产品、项目的沟通成本高、开发耗时长、用户体验差。如果智能可视化这些专业可视化知识沉淀和封装成工具,受众从可视化技术中获利的效率将大大提升。

工具时间

从一个需求产生,使用工具,到需求被解决,这中间花费的时间就是我们的工具时间。工具时间越短,说明自动化程度越高,效率越高。这个问题其实在很多领域都存在,本质上是软件工程领域发展的问题。比如,在设计领域,设计师获得一个灵感可能只需要一分钟的时间,但是把这个灵感做出来可能需要一整天都不止。如果有一个“神奇工具”,可以直接读取设计师脑中的想法,直接变成图像,那就完美了。Adobe 公司一直在往这个终极目标努力,借用人工智能技术,他们已经开发出了一个又一个的黑科技,设计师的体力劳动占比越来越少。

然而在数据分析和可视化领域,工具的自动化程度还远远不够。在生产端,从需求确定图表类型、图表细节元素选择、数据结构变换等等方面,存在着大量可以自动化的环节。实现这些环节的自动化,将大大减少可视化工具的制作成本。在用户端,一个分析人员想到一个业务分析的思路,想要从数据中去论证需要花费大量的时间来配置、使用商业智能软件。如果我们可以自动为他识别洞察、生成图表,就可以大量减少用户的工具时间,让他们的注意力解放到真正的数据分析和决策中去。

核心价值和想象空间

“能够从数据中一键生成分析报表,能够极大减少用户使用可视化的成本,提高分析效率”,做到这件事的话,能产生什么价值呢?

经过“大数据”的建设,现在收集数据已经变得简单而普遍。很多企业、组织、政府部门中已经存有了大量的数据。这些数据中潜藏着大量的附加价值,需要用数据探索和挖掘的方式找出来。然而,实际被挖掘和有效分析的数据可能只是其中极小一部分。绝大部分数据就静静地躺在数据库中,白白占用存储和运维资源。

为什么不去对这些躺着数据进行挖掘、开发呢?因为开发的成本太高了。且不说数据的清洗和准备需要成本,就算是干净的数据源,要针对业务设计、开发可视化报表或系统,也是一笔很大的投入。现在行业内要么是雇佣一定规模的团队来定制,要么是购买价格高昂的商业分析软件。过高的时间成本和人力成本,再加上产出结果的不确定性,使得很多企业望而却步。

利用智能可视化的能力,可以大大降低对存量数据进行有效分析的成本。由于过程是高度自动化的,不需要人工反复精密处理,而是可以快速给出分析方向和潜在洞察结果,这使得大规模的数据挖掘和发现成为可能。甚至,这使得数据分析场景不再需要指定的目标,而是可以推荐出以往不曾发现过的分析方式。哪怕智能可视化的结果不能一步到位,也可以快速提供分析的大致方向。

一旦存储着的大量沉默数据被激活,企业将收获巨大的价值。这也是智能可视化、增强分析会被看做行业破局者的一个重要原因

AVA 智能可视化体系

针对智能可视化场景,阿里巴巴的可视化专业团队们也在具体环节上付出了许多努力。

AVA 是一个开源的智能可视化体系,字母 VA 是 Visual Analytics 的缩写,表示可视分析,而第一个 A 是一个向量,有很多涵义,可以是 Alibaba 表示阿里巴巴集团多个专业可视化团队联合共建,可以是 AI、Automated 又或者 Augmented,表示人工智能、自动化和增强分析。

我们希望提供一个智能、自动化的可视化分析黑盒子,只需要提供数据本身和分析意图,合适的图表或可视表达就能够自动被推荐和生成出来了,所有中间的环节,AVA 都能帮大家处理掉。

目前,AVA 已经具有了初步的图表推荐能力。未来,还将像洞察识别、报表生成、数据处理等多个环节发起攻坚。为数据可视化的研发阶段、阅读阶段、分析阶段提供自动化能力支撑。

欢迎来 star⭐ 我们在 GitHub 上的项目:

https://github.com/antvis/AVA​github.com

阅读原文


Recommend

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK