2024年12月24日 Hadoop 什么是大数据 极客笔记
数据规模非常庞大的数据被称为大数据。通常我们处理的数据大小为MB(WordDoc,Excel)或最大为GB(电影,代码),但是以Peta字节即10^15字节的大小的数据被称为大数据。据说今天90%的数据都在过去的3年中生成。
这些数据来自许多来源,例如:
一家拥有1亿用户的电子商务网站XYZ想要向其在前一年中消费最多的前10个客户提供一个价值100美元的礼品券。此外,他们还想要查找这些客户的购买趋势,以便公司可以推荐更多与之相关的物品。
需要存储、处理和分析大量的非结构化数据。
存储: 对于这么多的数据,Hadoop使用HDFS(Hadoop分布式文件系统),它使用普通硬件来形成集群并以分布式方式存储数据。它采用写一次,多次读取的原则进行工作。
处理: 使用Map Reduce范式对分布在网络上的数据进行处理以获得所需的输出。
分析: 可以使用Pig和Hive对数据进行分析。
成本: Hadoop是开源的,因此成本不再是一个问题。
本文链接:http://so.lmcjl.com/news/20072/