定义

一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

特征

容量(Volume)

数据的大小决定所考虑的数据的价值和潜在的信息;

种类(Variety)

数据类型的多样性;

速度(Velocity)

指获得数据的速度;

可变性(Variability)

妨碍了处理和有效地管理数据的过程;

真实性(Veracity)

数据的质量;

复杂性(Complexity)

数据量巨大,来源多渠道;

价值(value)

合理运用大数据,以低成本创造高价值。

结构

在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。

理论

技术

云计算、分布式处理技术、存储技术、感知技术。

实践

大数据的最终价值体现。
logo

趋势

趋势一:数据的资源化

趋势二:与云计算的深度结合

趋势三:科学理论的突破

数据挖掘、机器学习、人工智能

趋势四:数据科学和数据联盟的成立

趋势五:数据泄露泛滥

趋势六:数据管理成为核心竞争力

趋势七:数据质量是BI(商业智能)成功的关键

趋势八:数据生态系统复合化程度加强

大数据4V特征

logo

大数据案例

Google分布式计算的三驾马车

  • Google File System用来解决数据存储的问题,采用N多台廉价的电脑,使用冗余(也就是一份文件保存多份在不同的电脑之上)的方式,来取得读写速度与数据安全并存的结果。
  • Map-Reduce说穿了就是函数式编程,把所有的操作都分成两类,map与reduce,map用来将数据分成多份,分开处理,reduce将处理后的结果进行归并,得到最终的结果。
  • BigTable是在分布式系统上存储结构化数据的一个解决方案,解决了巨大的Table的管理、负载均衡的问题。

Hadoop

体系架构

logo

核心设计

logo

关键词

云计算、数据挖掘、机器学习、分布式处理、存储、感知