探索性数据分析:决定人工智能与机器学习效果的第一步

如今,企业手中掌握的数据总量远超以往任何时候,但将这些数据转化为实际价值却仍然困难重重。
来源丨VentureBeat
编译丨科技行者

数据质量低下正严重损害人工智能(AI)与机器学习(ML)技术的实际表现。这个问题困扰着不同规模的企业,从小型初创公司到谷歌这类科技巨头都无法幸免于难。但数据质量为什么总不可靠?人为因素可能才是关键所在。

如今,企业手中掌握的数据总量远超以往任何时候,但将这些数据转化为实际价值却仍然困难重重。AI与ML带来的自动化功能,已被广泛视为解决现实数据复杂难题的有效手段;众多公司也迫切希望利用它们增强自身业务。但是,这种热潮本身,也引起大量上游数据分析项目的匆忙上马。

在自动化管道构建完成之后,其中的算法已经能够完成大部分工作,而且几乎不需要更新数据收集过程。但请注意,管道建成并不代表它可以一劳永逸地永远运作。我们需要随时间推移不断探索并分析底层数据,关注哪些漂移模式正不断侵蚀管道性能。

好消息是,数据团队完全有能力降低这种侵蚀风险,但成本就是付出必要的时间与精力。为了维持自动化管道的执行效率,我们必须定期进行探索性数据分析(EDA),保证整个体系始终精准运行。

探索性数据分析是什么?

EDA是成功实现AI与ML的第一步。在分析算法本体之前,我们首先需要理解数据内容。数据质量,终将决定下游分析管道的实际效果。在正确起效之后,EDA将帮助用户识别出数据中不必要的模式与噪声,同时指导企业更准确地选取适当算法。

在EDA阶段,我们需要积极查询数据以确保其中的行为模式合乎预期。首先,先从以下十个需要全面分析的重要问题起步:

1、是否拥有充足的数据点?

2、数据中心与离散的量度,是否与预期相符?

3、有多少个数据点质量良好、可用于实际分析?

4、是否存在缺失值?这些坏值是否构成数据中的重要部分?

5、数据的经验分布如何?数据是否符合正态分布?

6、数值中是否存在特殊聚类或分组?

7、是否存在离群值?应如何处理这些离群值?

8、不同维度间是否具有相关性?

9、是否需要通过重新格式化等手段进行数据转换,以供下游分析及解释?

10、如果数据为高维形式,是否能够在不损失过多信息的前提下降低维数?其中某些维度是否属于噪声?

这些问题又会衍生出更多问题。这不是完整的问题清单,而仅仅只是思考的开始。最终,希望大家能对现有数据模式建立起更好的理解,而后正确处理数据并选择最适合的处理算法。

底层数据一直在不断变化,这就要求我们在EDA上引入更多时间,确保算法接收到的输入特征始终保持稳定。例如,Airbnb发现,数据科学家在模型开发周期中近七成的时间被用于数据收集与特征工程,通过大量分析工作确定数据结构与模式。简而言之,如果不花时间理解这些数据,那么AI与ML计划将极易失控。

唯一不变的,只有变化

目前,数字服务中最重要的应用集中在网络安全与欺诈检测层面,这部分市场的总价值已经超过300亿美元。预计到2030年左右,市场总值有望超过1000亿美元。虽然Amazon Fraud Detector及PayPal Fraud Management Filters等工具已经在抗击网络欺诈方面发挥作用,但欺诈检测中唯一不变的只有变化本身。企业需要不断为新的欺诈行为做好准备,而欺诈一方也在努力“创新”保证自己的攻击能力。

每种新型欺诈往往都包含前所未有的数据模式。例如,新用户在注册与交易时往往对应AI系统未曾见过的邮政编码。虽然新用户可能来自四面八方,但如果注册地真的特别生僻,我们最好提高警惕。

这类计算中最困难的部分,是让AI模型准确辨别欺诈交易与正常交易。作为数据科学家,我们需要先引导底层算法初步理解正常交易与欺诈交易的特征,之后再由它慢慢探索更多欺诈检测途径。后续学习,离不开由统计技术搜索到的大量数据。用户可以剖析客户群体,确定普通客户与欺诈者之间的区别;之后提取出有助于进行准确分类的信息,具体涵盖注册信息、交易内容、客户年龄、收入水平、姓名等等。需要注意的是,将正常交易标记为欺诈行为,对客户体验及产品声誉造成的损害往往比欺诈本身更大。

更“有趣”的一点在于,EDA是个需要在整个产品生命周期内不断重复的过程。新的欺诈活动,必然对应着新的数据模式。最终,企业需要投入大量时间与精力推进EDA,借此保持最佳欺诈检测能力以维持AI与ML管道的正常运作。

总之,AI与ML的成功源自对数据的深刻理解,而非大量算法的盲目堆叠。

AI与ML管道应该适应数据,而不要指望数据能适应用户的现有管道。只有满足这些条件,AI与ML支撑起的新业务才有望勇猛精进、一路向前。

(0)

相关推荐