数据变现,背后的技术思路在改变?
文/李佳师
一直以来,大数据、人工智能的变现,备受关注。几天前,商汤科技在港交所提交上市申请,招股书显示净负债229.6亿元,近三年半研发开支近70亿,商汤科技亏损上市,让大数据与AI的落地和变现的话题再度成为热点。究竟数据如何变成知识变成应用,最后生产价值,AI到底如何落地?在日前举行的数据智能技术实践论坛上,相关企业代表与专家给出了他们的判断与建议。
核心出发点是要解决用户痛点
或许在一些人看来,从数据变知识最后变成应用,只要有某种神奇的算法就可以“一招鲜”把AI落地,但并非如此,要解决行业的痛点问题,从感知到认知到决策的进阶里,需要多维度的探索,目前各个维度公司都摸索出有很多有价值的门道。
数据治理是数据利用的前提和保证,“很多用户,在数据治理过程中遇到很多各种各样头疼的问题,比如很多数据过去的数据收集是按照归口门类进行收集的,怎么进行融合就是问题之一。”今天数据治理中的技术挑战除了数据孤岛、数据质量等问题,还存在多模态下如何解决数据不可用、不能用及不好用等挑战。百分点科技数据开发部负责人马伟凯认为,通过引入机器学习算法、NLP等数据智能技术,可以更好地开展数据治理工作,建立全域数据标准、提升数据质量、盘活数据资产,从而支撑数据融通,最终释放数据价值指导业务创新。
从算法和模型的角度看,“过去大家的想法是,通过单点的算法创新就想大大提升应用效果的方式已不复存。” 百度视觉技术部主任架构师刘经拓认为,要想破解行业痛点,需要用全流程、全栈的方式,需要在技术和产业两个维度上都进行了融合创新,百度经过这些年的实践探索了计算机视觉领域从预训练、定制化到小型化,以及平台化的一体化的研发方案。
具体来说,首先通过用超大规模非结构性的数据做预训练,能够在同样少量数据的情况下取得更好的效果;定制化是指结合特定场景进行自适应迁移学习,根据场景数据进行有监督定制化调优;小型化主要是基于模型剪枝、蒸馏、量化等技术,对模型进行裁剪。“大规模有监督数据的技术红利逐渐减弱,AI新基建需要更低的研发与部署成本,通过预训练与自训练平台,最终还要沉淀成标准化、低成本复制的模型,并与产业进行更深度的融合,挖掘出更多降低人工成本的新应用点。”刘经拓说。
从知识图谱的角度来看,复旦大学教授肖仰华认为,知识图谱是一种大规模语义网络,是大数据时代知识最重要的一种表示方式,目前知识图谱的运用存在几大难点,一是成本太高。有报道称,手工构建一条三元组可能需要2到6美金,如果使用上自动化的办法,也要花将近15美分左右。如果构建一个成千上万,或者千万规模的知识图谱,可以想像其成本之高。另一个难点是,知识图谱的构建是锦上添花,可有可无。
百分点科技首席算法科学家苏海波认为,知识的构建要从实际业务应用的角度出发,不能为了构建一个图谱而构建图谱,一定要强调从业务上解决什么样的问题,基于这样的需求构建图谱。知识图谱落地有三个前提条件:一是应用场景要清晰,业务场景到底要解决什么样的问题,越具体、越清晰越好;二是知识依赖的数据边界清晰,解决应用问题依赖的数据是不是能够基于客户内部数据或者外部公开的数据获得;三是构建可控,构建的工作量要可控要可量化,事实上,人构建的代价要比机器的代价大,所以在构建时要考虑整个灵活性。
未来数据与AI技术会怎么变
马伟凯表示,未来数据治理领域会有四大应用趋势:一是智能化建模和数据加工优化,需要不断地提升建模的能力沉淀到知识库;二是智能化完善数据安全管理,包括智能化控制数据权限分配、智能化数据审计并制定数据加密脱敏策略;三是智能化设计并维护数据生命周期管理,由于数据量大有时候不一定是好事,对于很多单位来说可能是负担,因此智能化识别数据、智能化制定数据保留策略非常重要;四是与Data Fabric更好的融合,增强数据目录,实现动态的获取数据,保证数据的安全。
肖仰华认为,在知识图谱领域,在获取知识之后,在应用、服务能力方面也存在很多挑战。因此,未来破题的关键在于要突破以知识图谱为代表的知识智能的边界,向认知智能这样的智能新形态发展。“认知智能作为数据智能、知识智能融合创新产物,将是知识图谱等知识工程技术发展的必然归宿。” 肖仰华表示。
关于模型的未来,关于人工智能的未来,现在很多大公司都在研发大模型,是不是大模型就是走向通用人工智能的方向呢?百分点CTO刘译璟表示,人工智能的未来发展,要么在理论上有新突破,要么在人脑研究上有新的突破,要么在量子计算等新计算模式上有新的突破,如果这些维度产生突破能够给人工智能未来发展带来新的变量。