陈根:数据清洗机器人,MIT首发

文/陈根

当前,数据量的快速增长已经成为了IT管理部门所面对的最难于解决的问题之一。数据量的增长严重降低了应用程序的性能,降低了应用程序的稳定性,并且消耗了大量的投资,同时对备份与恢复也增加了巨大的负担。

显然,对于IT管理部门来说,不能永无止境的投入大量资金来升级系统存储水平、提高服务器性能,以此来满足不断增长的数据量。数据清理在这个时候就显得尤为重要。

通过数据清理和数据归档的实施可以有效的提高数据库性能,确保核心业务不会因为长时间数据积累而出现性能问题,从而应用可以更加迅捷地提供优质服务。当然,数据清理技术也经过了漫长的发展且仍在研发之中。

根据Anaconda和Figure Eight进行的调查,数据清理可能需要数据科学家四分之一的时间。并且,自动化数据清理对于数据清理而言极具挑战性——因为不同的数据集需要不同类型的清理,而且经常需要对世界上的对象进行常理性的判断。

基于此,近日,麻省理工学院(MIT)的研究人员就称,他们发明了一种新的系统,可以自动清除脏数据(dirty data)——数据分析师、数据工程师和数据科学家害怕的打字错误、重复、缺失值、拼写错误和不一致。

新系统被称为PClean,是概率计算项目(Probabilistic Computing Project)研究人员编写的针对特定领域的概率编程语言,旨在简化人工智能应用程序的开发并实现自动化,例如时间序列和数据库进行建模。

PClean使用一种基于知识的方法来自动化数据清理过程:用户对数据库的背景知识以及可能出现的问题进行编码。用户可以给PClean关于域和关于数据可能被破坏的背景知识。PClean通过常识概率推理结合这些知识来得出答案。

PClean是第一个贝叶斯数据清理系统,它可以结合领域专业知识和常识性推理,自动清理数据库中的数百万条记录。PClean工作所需的代码行数要比其他最先进的选择少得多:PClean程序只需要大约50行代码就可以在准确性和运行时方面超过基准测试。

显然,大数据时代里还需要更多数据清理技术的开发,这也将为未来大数据的发展提供更多的保证。

(0)

相关推荐

  • 这些数据清理工作在Excel中有更好的方法(一)

    我们,让Excel变简单 Exce中有很多方法可以帮助我们进行数据清理工作,但是这些方法都有一个缺陷,那就是基本上都是一次性的,不能从源数据开始建立自动化的数据处理分析流程,这就导致了我们的工作效率不 ...

  • 一招清理电脑垃圾#电脑知识# #电脑##组装电脑#

    一招清理电脑垃圾#电脑知识# #电脑##组装电脑#

  • 你真的了解边缘计算吗?——掌握边缘计算必需具备的4项技能

    Node-RED 是一种流行的物联网连接工具,可轻松在边缘共享数据.图片来源:Opto22 作者 | Josh Eastburn " 随着IT/OT之间的交织越来越紧密,边缘计算对于工程师而 ...

  • 如何学习Python爬虫?学习方法分享

    爬虫是Python的应用领域之一,它十分简单,学完基础知识后就可以做有关爬虫的事情,更是数据采集的利器,利用Python可以更快的提升对数据抓取的精准程度及速度,那么如何高效的学习Python爬虫技术 ...

  • 陈根:机器人导盲犬——导盲新可能

    文/陈根 前不久,上海一位50岁的盲人阿姨因导盲犬排便问题被小区居民多次投诉.这一事件发生后,引起了社会对盲人群体的关注,也引起了对导盲犬的关注. 导盲犬作为一种经过严格训练的狗,属于工作犬,在一定程 ...

  • 陈根:机器人外骨骼,或将成就无障碍行走

    文/陈根 机器人外骨骼已经对无法行走的人们产生了巨大影响,或将帮助行走障碍者们更方便地行走,但目前仍然存在一些局限性. 比如,虽然电动外骨骼在沿着平坦地面行走时能够自动帮助移动佩戴者的腿,但大多数外骨 ...

  • 陈根:机器人给药,精准治疗未来已来?

    文/陈根  20 世纪中期,著名物理学家 Feynman就提出了分子机器的设想,预测未来只要把纳米机器人放进人体的血液中,就能自动抵达病灶进行手术,治疗疾病. 在将近一个世纪后,Feynman的分子设 ...

  • 陈根:机器人如何预测机器人?

    文/陈根 同理心是人类的一种特殊心理状态,是设身处地地对他人的情绪和情感的认知性的觉知.把握与理解,也是指人们将心比心,心理换位的能力.显然,这种能力除了帮助我们认识他人和理解他人外,也给我们提供了预 ...

  • 陈根:机器人LEO,走路飞行无缝切换

    文|陈根 双足机器人曾是科幻文学和电影的主题.在非理想地形上,早期双足机器人的形象通常是移动缓慢且笨拙的.近年来的技术进步使得它们能够在保持平衡的同时更快.更有效地移动,但是其移动或多或少还是会受到崎 ...

  • 陈根:芯片再突破,IBM首发2nm芯片技术

    文/陈根 芯片是市场的灵魂,也是信息产业的三要素之一,芯片起则科技起,科技兴则国家兴. 简单来说,芯片就是采用几百道复杂的工艺,把一个电路中所需的晶体管,包括二极管.电阻.电容和电感等元器件及布线互联 ...

  • 陈根:生物机器人——依靠细胞“长成”

    文/陈根 科幻作品<云端杀机>中曾描述过这样一个场景:像蚁群一样的有机组织,形成千万级别的简易飞机群,以蜂拥而至.出奇制胜的步骤完成了刺杀行动.这一场景生动展现了集群机器人的设计理念和威力 ...

  • 陈根:微型软体机器人,正在拥有“鞭毛”

    文/陈根 "小"似乎成为当前技术进步的标志--把众多硬件和软件集成到越小的载体上就越能体现技术能力.在人工智能领域,也遵循了这一趋势,微型机器人的发展就是一个很好的例证.随着微加工 ...

  • 陈根:强化学习,如何增强机器人的鲁棒性?

    文/陈根 双足机器人曾是科幻文学和电影的主题.在非理想地形上,早期双足机器人的形象通常是移动缓慢且笨拙的.但是随着科技的发展,它们开始能够进行更快.更有效地移动.现在,有些双足机器人已经可以适应环境和 ...