管理大数据需要了解面临的挑战

2016/7/15 7:39:32 来源:机房360 作者:HERO编辑 分类:特别报道

    如今,我们每天有多少数据处理?每年将产生多少数据?这一数字变化如此之快,每一年或两年翻一番,人们只能从知情人士获得最佳的估计数量。而这些透露消息的人士,其中大部分都是在组织中数据管理领域的杰出人物,他们所估计这个数字如此之高,这几乎让人不可能想象。根据全球市场调查机构IDC公司称,在2011年,我们大约创造了1.8泽字节的数据,换而言之就是1.8万亿千兆字节的信息。他们继续说,在2012年,我们创造了2.8泽字节的信息。此外,他们说,到2020年,我们将产生40泽字节的信息。
  
  据IBM公司估计,我们现在每天创建了2.50亿千兆字节的数据。
  
  这种大规模的数据集被称为大数据。大数据是已经成为非常流行的一个术语,以皮字节和艾字节表示和描述数据集,并且其有时施加到数据集的技术,并处理它的应用设置。
  
  对于这篇文章的目的,我们将限制定义一个描述巨大的数据量。在2014年9月AIP会议议事程序中,安德列德•毛罗,马可•格雷科,米歇尔•格里马尔迪为我们提供了一个更具体的和健壮的定义:“大数据代表着这种高容量的信息资产的特征,通过各种需要特定的技术和分析方法,将其转变为价值”。
  
  注意,这个定义是很重要的。它不仅是数据的数量,或体积,而且还有速度,也就是服务和消耗的速度。数据流已经改变了我们对存储和交付数据的看法,并放置在基础设施和应用程序引擎中,而以前难以想象要求能这样做。
  
  一个更近的维基百科定义了“体积,速度和品种”短语,并添加到另外两个额外的“V”的概念,这两者都与大数据所面临的挑战非常相关的:变异性和准确性。
  
  数据采集及其应用
  
  随着互联网的出现和使用大数据的人数成倍增长,收集大量数据的能力也与之一起成长。数据收集发生几乎一样的其他计算活动的副作用。在我们采取的过程中,数据在创建帐户,上传文件,以及产生其他明显的行动。然而,数据也被无意提交收集,因为一些其它活性的副产品。一个看似私人的行为,如点击一个链接,对于营销人员就可以提供一个有价值的信息。因此,数据正在被记录和存储。并且在某处进行处理。
  
  而计算机对于工作人员处理信息是优秀的,但没过多久,营销等行业实现保留供收集数据的大量的潜力,因为它是在网络上传来传去,最引人注目的是互联网(虽然重要的是记住很多大数据,并将其存储在企业的内部网)。当该数据与其他数据,例如人口统计信息,一个人的YouTube的喜好,地理位置,社会行为与Outlook配对,这个数据变得更加强大。
  
  其他行业也意识到,他们在收集和处理信息方面从来没有见过这样大的规模。不仅互联网,而且企业和其他实体的内部网络可以容纳大量的信息。在美国、印度和其他地方的政府已经能够运行更精细的数据调整,以赢得选举。国际组织收集和使用医疗保健、生产力,以及就业数据,以帮助他们了解发展资金是最好的花费。私营部门在许多方面使用大数据,包括交易数据和分析。科学研究涉及到大数据分析,例如,大型强子对撞机的科研活动,以及超大型望远镜(VLT)阵列的数据返回。此外,大数据改变了制造业,通过提供生产、需求、足够的数据,分析师将了解是什么导致短缺和过剩,并对以前难以确定行为和计划进行可用性分析。
  
  数据记录的泽字节是一回事,数据采集方便又便宜。当你认为你正在做别的事情的时候,数据收集正在发生。而我们如何利用它是一个完全不同的问题,也是任何组织所面临的最大挑战之一,从企业营销到政府部门,将考虑如何有效地使用这样大量的数据。
  
  德毛罗等人所描述的数据的品种是大数据的关键特征之一。数据源无处不在,并收集所有类型的信息,其中一些应该被认为是敏感的,需要安全处理。随着各种各样的数据到来,这意味着来自不同来源的数据,格式和可访问性,即使是相同的信息,也可能是不同的。最后,数据的可靠性和准确性,是数据分析人员必须关注的重点。“脏数据”一直是数据库管理的一个问题,但这个问题与今天的环境指数相乘,具有更高的容量,并提供数据多源。
  
  当它被成功地分析,大数据可以帮助科学家解码DNA,它可以帮助政府预测恐怖活动,它可以调整企业的产品结构,以满足客户的需求。
  
  但面对这样的数据采集,持有人的问题是将如何利用它?并且越来越多,我们如何对此保证安全?
  
 挑战和安全
  
  如今,人们所面临的安全漏洞一直是很严重的,但大数据的安全漏洞可能是灾难性的。数据收集可以包括非常敏感和极其隐秘的个人信息,这将成为身份盗窃和恶意操纵的潜在数据。随着企业开发他们的大数据存储和分析系统,安全性必须列于他们的优先级名单的首位。
  
  数据分析系统面临着大数据这个第一大挑战是简单的事实,系统和流程都不能处理,我们现在希望定期处理这些数据。存储基础设施相对容易创建:因为存储设备已经成为廉价和可用的,并对其挑战有着相当充分的了解。具分析和使用数据是目前正在开发的高需求,很多企业都已经建立了自己的内部数据分析:谷歌公司在2014年每天处理的信息大约20PB。
  
  编辑:HERO

相关资讯

  • 绿色低碳趋势下,DTDATA携业内专家探讨如何实现数据中心高质量发展

    在节能减排、“碳中和”趋势下,绿色节能、低碳、可持续发展也成为了数据中心行业发展主基调。伴随着数据中心规模持续高速增长,也带来了诸多挑战,如何实现数据中心高质量发展?看专家们怎么说。

    2022/3/14 10:00:31
  • 数据中心节能监察:广州、深圳发布最新政策

    最近国家发改委频频为数据中心发声,广州、深圳也随之迎来了6月新政。

    2021/6/18 15:45:32
  • 黑石持续重仓IDC数据中心的背后

    6月7日,黑石集团(Blackstone Group Inc., BX)达成一项交易,以约67亿美元(约合428.57亿元人民币)收购数据中心运营商QTS Realty Trust Inc.(以下简称QTS),并将该数据中心运营商私有化。这是自2015年黑石加大数据业务投资力度后又一次收购数据中心项目。

    2021/6/9 10:44:08
  • GLOBAL SWITCH香港数据中心探秘~世界级的绿色数据中心

    与所有其他Global Switch数据中心一样,Global Switch香港数据中心提供了具有高容灾能力的环境,可通过多种连接方式支持可扩展的、灵活的解决方案。香港数据中心还符合Global Switch一流的运营和环境管理流程,并拥有超过Tier III的运营水准,成为了中国公司海外业务扩张布局的…

    2021/5/26 11:40:39