1

一文搞懂!商业数据分析全流程

 1 year ago
source link: https://www.niaogebiji.com/article-606353-1.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

一文搞懂!商业数据分析全流程-鸟哥笔记

首页 > 数据运营 > 一文搞懂!商业数据分析全流程
一文搞懂!商业数据分析全流程
2023-06-25 15:32:21

商业数据挖掘是一项涵盖了商业问题的提出、数据收集和处理、模型构建和应用等多个环节的复杂过程。

首先,业务分析师或客户提出一个具体的商业问题,这个问题的提出需要基于对业务的深入理解和分析。接下来,需要结合企业或组织的三大资源——高质量的数据、业务知识以及数据挖掘软件,通过数据挖掘技术从大量的数据中提取出有商业价值的信息。最后,将这些洞察力嵌入到实际的业务流程中,用于提升销售收入或利润,降低成本,提高运营效率等业务目标。

png

为了使数据挖掘过程更加规范化、系统化,出现了一些数据挖掘流程模型,CRISP-DM即是其中的一种优秀代表。CRISP-DM全称为CRoss Industry Standard Process for Data Mining(跨行业数据挖掘标准流程),如图1.2所示,这个流程模型将整个数据挖掘过程划分为六个主要阶段:业务理解、数据理解、数据准备、模型建立、模型评估和结果部署。

CRISP-DM强调,数据挖掘是一个迭代和探索的过程,六个步骤并不是线性的,而是根据实际情况灵活进行的。例如,如果在数据理解阶段发现现有数据无法解决业务问题,可能需要返回到业务理解阶段重新定义问题;如果在模型建立阶段发现数据无法满足建模需求,可能需要重新进行数据准备;如果在模型评估阶段发现模型效果不佳,可能需要返回到业务理解阶段审视问题定义,或者返回到数据准备和模型建立阶段调整模型。

png

CRISP-DM流程为企业提供了一种结构化的方法来进行数据挖掘和分析,通过每个阶段的专业处理,能够有效地从大量数据中提取出有价值的信息,支持企业的决策,提升企业的竞争优势。

1. 业务理解

业务理解阶段是CRISP-DM流程中的第一步,这个阶段对整个数据分析项目至关重要。正确理解和定义业务问题将极大地影响后续的工作。此阶段的主要目标是对商业问题进行明确的界定,并评估和组织企业的内外部资源,使得可以更好地进行后续的数据挖掘任务。在业务理解阶段,我们需要完成以下工作:

● 确定商业目标

此部分应详细介绍商业背景,明确商业目标,定义达成目标的成功标准。例如,如果是一家电商公司,可能的商业目标是提高用户转化率或减少购物车弃置率。成功标准可能是在一定时间内将转化率提高到某一特定的百分比。

● 形势评估

这是对项目当前环境的全面评估,包括企业已有资源(如数据、人力、技术等)、需求、假定和限制、风险偶然性,以及专业术语的解释。此外,还要进行成本收益分析,以确保项目的收益超过成本。

● 确定数据挖掘目标

在明确了商业目标后,需要转化为数据挖掘的目标,这可能涉及到预测某一特定指标,或是发现潜在的数据模式。同时,还需要定义数据挖掘的成功标准,例如,模型预测的准确率或召回率达到某一特定水平。

● 制订项目计划

根据前述的信息,制定详细的项目计划,包括时间线、责任分配等。此外,还要对可能使用的工具和方法进行评估,例如,可能需要确定使用哪种编程语言,以及是否使用开源库或是商业软件以降低开发成本。

这个阶段的目标是将商业问题转化为数据科学问题,并确定实施方案。每个步骤都需要深入的业务理解和交叉学科的知识。在整个过程中,与业务团队、数据科学团队和其他相关团队的紧密沟通是非常重要的。

2.  数据理解

数据理解阶段是CRISP-DM流程的关键环节,主要的任务是对企业的数据资源进行深入的认识和初步清理。这个阶段能够让分析师对手头的数据有一个全面的了解,为后续的数据准备和模型建立打下坚实的基础。在这个阶段,我们需要完成以下工作

● 收集原始数据

首先需要收集原始数据。这个过程可能包括从数据库中提取数据、获取第三方数据源、或者直接从业务流程中获取数据等方式。数据收集报告应记录详细的数据收集过程,包括数据来源、收集时间、数据量、数据的类型和格式等信息。

● 数据描述

数据描述报告主要是对数据的基本信息进行描述,包括数据的大小、数据的字段含义、字段的数据类型(如数值、类别、日期等)、数据分布的概况等。这个过程有助于我们了解数据的结构和基本特性。

● 探索性分析

数据探索性分析是对数据进行更深入的分析,包括计算一些统计量(如均值、中位数、方差等),绘制图表(如直方图、散点图、箱线图等),检查数据的分布,探索变量之间的关系等。探索性数据分析报告应详细记录这个过程的结果,包括发现的数据特征、数据的异常值、变量间的关系等信息。

● 数据质量报告

数据质量报告主要评估数据的质量,包括数据的完整性、准确性、一致性和时效性等。数据质量问题可能包括缺失值、重复值、异常值、错误的数据类型等。数据质量报告应明确指出这些问题,并给出解决的建议。

在这个阶段,一个重要的原则是:数据质量的好坏往往直接影响到数据分析的结果。因此,对数据进行详细的理解和初步的清理是非常重要的。

3.  数据准备

数据准备阶段是CRISP-DM流程中非常关键的一环,主要是在建立数据挖掘模型之前对数据的最后准备。在企业的实际情况中,数据往往被存储在不同的部门、不同的数据库或者数据库中的不同数据表中。因此,需要对这些数据进行整合和转换,以生成符合数据挖掘需求的数据集。在这个阶段我们需要完成下面一系列工作:

● 选择数据

在数据准备阶段,不是所有数据都适合数据挖掘,因此需要确定哪些数据应该包含在数据挖掘中,哪些数据应该被剔除。这个过程可能涉及到对数据的抽样,基于业务知识的特征选择,以及基于统计分析的特征选择等。

● 数据清理

数据清理是对数据进行质量提升的过程,这可能包括对缺失值的处理(如插值、删除等)、对异常值的处理(如修正、删除等)、对重复值的处理等。数据清理报告应详细记录数据清理的过程和结果。

● 数据重构

数据重构可能涉及到生成新的字段和记录,例如,根据已有的数据计算出新的特征(如从日期中提取出月份、季节等)、进行数据的离散化或连续化、进行数据的平衡等。

● 整合数据

在现实企业中,数据可能被存储在不同的数据库或数据表中,因此需要对这些数据进行整合。这可能涉及到数据的合并、数据的连接等操作。

● 格式化数据

最后,需要将数据转化为适合数据挖掘的格式。例如,对于定类数据,可能需要进行独热编码或者哑变量转换;对于数值型数据,可能需要进行标准化或归一化。

数据准备阶段的工作量通常占据了整个数据挖掘项目的大部分时间,因为它涉及到的任务复杂并且冗长。然而,高质量的数据准备是建立有效模型的关键,因此这个阶段的工作是非常重要的。

4.  建立模型

建立模型阶段是数据挖掘工作的核心环节,其主要任务是选用适当的模型和算法来发现数据中的规律。数据挖掘模型大体上可以分为数据描述和汇总、细分、概念描述、分类、预测和相关性分析等。以下是建立模型环节的主要工作:

● 选择建模技术

选择合适的模型和算法是这个阶段的第一步。选择的过程中,需要考虑模型的假设和要求(如对数据的分布有无特定要求,是否需要大量的样本,计算复杂度等),以及模型的适用范围。对不同的模型技术进行评估和对比,以确定最合适的建模技术。

● 产生检验设计

为了评估模型的性能,需要设计相应的检验方案。这可能涉及到数据的划分(如训练集、验证集和测试集的划分),以及评估指标的选择(如准确率、召回率、AUC等)。检验设计应详细说明如何对模型的性能进行评估。

● 建立模型

在选择了模型和算法后,需要设定模型的参数,如正则化参数、决策树的深度等。然后使用训练数据来建立模型。建立模型的过程应详细记录,包括模型的具体形式、使用的参数、训练的过程等。模型的适用性概述应说明模型适用的场景和限制。

● 模型评价

建立模型后,需要使用验证集和测试集来对模型的性能进行评估。模型评价应详细记录模型在各项评估指标上的表现。根据评价的结果,可能需要对模型的参数进行调整,或者尝试其他的模型和算法。

这个阶段的目标是建立一个既符合业务需求,又能在数据上表现良好的模型。这可能需要反复的尝试和调整,以及深入的业务和技术知识。

5.  模型评价

模型评价阶段是数据挖掘流程中非常关键的一步,它的目的是评估模型是否达到了预期的效果,并决定是否将模型投入到实际应用中,或者是否需要对模型进行进一步的优化和调整。模型评价通常涉及到技术层面和商业层面的评估,分别由建模人员和业务人员来共同完成以下工作:

● 结果评估

这个阶段的主要任务是评估数据挖掘模型的结果,从技术角度(如准确率、召回率、AUC等评估指标)和商业角度(如模型对业务的贡献、模型的可解释性、模型的实施成本等)进行全面的评价。结果评估应详细记录模型的评估过程和结果,包括模型在各项指标上的表现,模型的优点和缺点,模型的改进空间等。

● 数据挖掘过程回顾

在模型评价阶段,也需要回顾整个数据挖掘的过程,查找是否存在疏忽和遗漏之处。例如,是否有更好的特征可以使用,是否有更好的模型可以尝试,数据清理和准备的过程是否充分等。数据挖掘过程回顾可以帮助我们找到改进的机会,提升模型的性能。

● 确定下一步的工作内容

根据模型的评估结果和数据挖掘过程的回顾,我们需要列出所有可能的行动方案,包括对模型进行优化,尝试新的特征和模型,收集更多的数据等。然后,根据这些方案的预期效果和实施成本,进行决策,确定下一步的工作内容。

模型评价阶段的目标是确保模型的质量,提升模型的实用性,为下一步的工作做好决策。

6.  结果部署

结果部署(Deployment)阶段是整个数据挖掘流程的最终阶段,它将数据挖掘模型的结果实际应用到业务中,从而实现数据挖掘的商业价值。这个阶段涉及的内容可能会根据模型的类型和应用场景有所不同,但一般都会涉及到模型的部署、监测和维护等环节。

● 结果发布

根据模型的类型和应用场景,详细规划模型的发布流程,包括模型的上线时间、上线的环境、需要的资源等。结果发布计划应详细记录模型的部署情况,包括部署的过程和结果,以及可能遇到的问题和解决方案。

● 监测和维护模型

模型在部署后,需要定期进行监测和维护,以确保模型的性能和稳定性。随着商业环境的变化,模型的适用性和效果也可能会发生变化,因此需要建立一套有效的模型监测和维护机制。监测和维护模型计划应详细记录如何进行模型的监测和维护,包括使用的工具和技术,监测的指标,维护的策略等。

● 模型交付报告

这份报告应总结整个数据挖掘的过程,包括数据的收集和准备,模型的建立和评价,模型的部署和监测等。报告应详细记录模型的性能,模型对业务的贡献,以及模型的改进空间等。

部署阶段的目标是确保模型能够顺利地投入到实际的业务中,并通过监测和维护,确保模型的持续效果。

本文系作者: SPSSPRO 授权发表,鸟哥笔记平台仅提供信息存储空间服务。

本文为作者独立观点,不代表鸟哥笔记立场,未经允许不得转载。

《鸟哥笔记版权及免责申明》 如对文章、图片、字体等版权有疑问,请点击 反馈举报


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK