关注微信公众号:一个数据人的自留地

作者介绍

经海路@薄荷点点

京东物流数据PM一枚。

专注“BI+”,带你发现数据产品的更多可能性。

最近这段时间根据Gartner相关报告中涉及到了BI系统、数据分析的技术趋势,进行了一些归纳总结,对于某些趋势点,特意去找了现存的BI产品,站在2021年的开端,让我们脚踏实地的脑洞一下吧!


分析时刻


分析时刻是Gartner定义的一种数据分析流程,通过对数据进行可视化、探索和应用算法,支持业务成果的交付,从而做出更好或更快的决策,实现业务流程的自动化。

随着数据使用门槛逐步降低,自助式、平台式BI成为趋势,数据分析的主动权会逐步转移到业务人员手中,数据分析直接由遇到业务问题的业务人员发起,业务人员可以使用数据分析工具/平台完成数据分析内容。

举例:

当一名业务人员想知道某个商品的线上销售预测,或者为什么购物车中的商品没有被某些客户转化为购买,在过去,这名业务人员必须求助于IT部门的专业数据分析师(提取可能相关的数据,输出特定分析报告)、数据科学家(建立预测模型),但是试想一下,如果BI系统中建立了常用的预测算法模型、归因分析工具,可以方便的连接数据集,业务人员自主快速完成分析内容,他通过自助分析很快就知道了这几个数据结论或者问题原因,从而做出业务上的反馈。


增强分析



增强分析主要是指以机器学习为基础的数据分析和BI功能,通过机器学习、人工智能等技术的应用将常见通用的数据分析的场景沉淀为产品功能中,帮助普通用户在没有数据科学专家或 IT人员协助的情况下完成数据分析。

增强分析的底层理念是“简单易用”,能够支撑用户在没有专业知识背景下,完成数据的“收集-准备-整合和分析”全过程。

增强分析包含增强数据准备、增强机器学习、增强数据分析这些模块。这里主要讲在数据分析中的应用趋势。


(1)NLP与NLG的应用

  • 使用自然语言分析(NLP),通过语言和可视化来分析数据

举例:ThoughtSpot使用搜索和NLP作为访问数据的主要界面,用户可以通过打字或者语音提出问题。


  • 对话式数据分析的数据机器人

自然语言转化成 SQL,再将 SQL 结果集转化成可视化的图形,形成了"NL2SQL2Graph"的完整链路。

举例:阿里小蜜(入口:淘宝)


  • 使用自然语言生成(NLG),将机器分析出的观点结论以语言形式展现给用户

举例:tableau的explain Data功能,会自动针对所选值提供由 AI 驱动的解释。此功能会在后台检查数百个可能的解释,并呈现可能性最大的那些解释。

这个功能是如何实现的?在tableau的2020.2 new feature网络研讨会上对explain data性能增强的介绍下让我们可以大概知道运行原理:

当你点击某个数据值进行explain data时,系统会自动对数据集的每一个维度、每一个度量都进行交叉计算,判断需要解释的数据值是高于还是低于预期(均值)。

以高于预期为例,explain data会尝试做以下几类解释:

先去扫描所有的维度信息,看是否有显著的维度(这个维度的值普遍偏高);

然后去考察记录数(数据条数),是否是由于数据记录数较高导致;

再次,考虑极端值的情况,是否是因为某个极端值造成了偏高。

在新版的explain data中,对计算的维度范围进行了限制(不再对所有维度进行解析,有一些明显值过多的维度、包含了平均值的维度都会默认被忽略),这能解决以前数据集较大或者维度偏多explain data会比较慢的问题。


(2)自动洞察和自动可视化

  • 自动洞察( automated insights )

自动洞察是指机器自动地从数据中发现潜在信息和价值:发现数据之间的关联、发现数据异常、自动进行聚类。

现在大部分的主流 BI 平台都有自动洞察的相关功能推出。举例:

微软的 PowerBI 的Quick Insights 功能能够自动对于源数据做出各种交叉的一阶或者多阶计算 ( 百分比,排序,同环比 ),从而挖掘数据内部各种趋势。


  • 自动可视化 ( automated visualization )

根据数据结果自动的选择可视化的方式进行展示,以清晰的展现数据分析结果。

有2个方向:

  • 自动选择图表:当查询出数据集后,机器会根据数据特点,自动生成合适的图表。图表自动化现在主流的BI工具都已经支持了,比如tableau,选择好数据集后第一眼看到的不是数据,而是自动的可视化图表,而当维度变多后,会自动将现有图表拆分成多个。

  • 自动生成报告:比自动选择图表更高一层,自动生成报表布局、配置控件、图表联动等。

技术上有2种实现思路:

  • 基于规则:预先设置好规则库,根据规则生成图表,规则库的质量是关键。

  • 基于模型:将问题转化为分类或者排序问题,数据本身的特征与可视化图表的特征是关键。

嵌入式分析




将特定的数据分析方法集成到业务系统中。

比如,BI系统的页面可以用于嵌入到其他系统中,这样对产品未来发展很有好处:

  • 能够扩大BI的适用范围,也便于未来产品规划的升级

  • 业务人员在产生数据的系统内就能看到数据的分析结果,增加了体验,并且使用起来流程、体验都很顺

预测和决策建议

通过大量人工业务分析总结出的业务经验、再加上AI和机器学习技术的加持,让机器一次性完成业务分析和行动建议。

比如:taobao的生意参谋,数据现象后面紧跟着操作建议、业务技巧。

这种功能如何实现呢?看起来很高大上,其实说起来也有简单的方法:

首先提炼出数据表现背后代表的业务场景,根据数据表现判断属于哪一种业务场景,再推送出对应的解释和建议,这种实现方式的特点是,业务已经比较成熟,能够很好的抽象出业务上数据和策略的关系。实现上使用规则就可以很好的满足初期的需求,是的,重点是梳理好对应的规则库。

我个人比较推荐这种成本低的决策建议,在项目初始的短期内就能够达到比较好的效果,给未来迭代升级提供很好的ROI支持。


参考资料:

《Quick Insights With Power BI》(Madan Bhintade,C#Corner)

《增强分析技术原理与实践》(马玥、丁建栋 阿里巴巴,DataFunTalk)

《Gartner对于建设数据中台的建议》

Tableau中国官网

ThoughtSpot官网

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论
立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部