当您了解大数据时,您迟早会遇到这个听起来很奇怪的词:Hadoop——但它到底是什么? 简而言之,Hadoop 可以被认为是一组开源程序和过程(意味着基本上任何人都可以免费使用或修改,除了少数例外),任何人都可以将其用作大数据操作的“骨干”。 图像 更多阅读 大数据分析 大数据:分析领域 12 个月的精彩回顾 沃尔玛如何应对大数据技能危机 HR 如何以智能方式使用大数据(提示:大多数不是) 大数据和分析如何改变足球 大数据是骗局吗? 当您了解大数据时,您迟早会遇到这个听起来很奇怪的词:Hadoop——但它到底是什么? 简而言之,Hadoop 可以被认为是一组开源程序和过程(意味着基本上任何人都可以免费使用或修改,除了少数例外),任何人都可以将其用作大数据操作的“骨干”。 我会尽量让事情变得简单,因为我知道很多阅读本文的人都不是软件工程师,所以我希望我不要过度简化任何事情——把这看作是给想要了解一点的人的简要指南更多关于使大数据分析成为可能的具体细节。

的 个模块 模块组成

每个模块执行特定任务,这对于专为大数据分析而设计的计算机系统至关重要。 1.分布式文件系统 最重要的两个是分布式文件系统,它允许数据以易于访问的格式存储在大量链接的存储设备上,以及 ——它提供了在数据中查找的基本工具。 (“文件系统”是计算机用来存储数据的方法,因此可以找到和使用它。通常这是由计算机的操作系统决定的,但是 Hadoop 系统使用自己的文件系统,该文件系统位于主机的文件系统——这意味着 Whatsapp 手机号码列表 它可以使用运行任何受支持操作系统的任何计算机访问)。 以该模块执行的两个基本操作命名——从数据库中读取数据,将其转换为适合分析的格式(地图),以及执行数学运算,即计算客户数据库中 30 岁以上男性的数量(减少). 3. 通用 另一个模块是 供了用户计算机系统读取存储在 文件系统下的数据所需的工具(在 Java 中)。 4. 纱线 最后一个模块是 YARN,它管理存储数据和运行分析的系统资源。 近年来,各种其他程序、库或功能已被视为 “框架”的一部分,但 分布式文件系统和 是主要的四个。

whatsapp 手机号码列表

是如何诞生的的开发始

于具有前瞻性思维的软件工程师意识到,任何人都可以存储和分析比在一个物理存储设备(例如硬盘)上实际存储和访问的数据集大得多的数据集,这对任何人来说都变得非常有用。 这部分是因为随着物理存储设备变得越来越大,从磁盘读取数据的组件(在硬盘中,将是“磁头”)移动到指定的段需 BSB 目录 要更长的时间。相反,许多并行工作的小型设备比一个大型设备效率更高。 它于 发布,这是一个非营利组织,它生产开源软件,为幕后的大部分 提供支持。如果您想知道这个奇怪的名字是从哪里来的,那是给属于原始创作者之一的儿子的玩具大象的名字统的灵活性意味着公司可以根据需求的变化添加或修改他们的数据系统,使用来自任何 IT 供应商的廉价且现成的部件。 如今,它是跨“商品”硬件提供数据存储和处理的最广泛使用的系统——相对便宜的、链接在一起的现成系统,而不是为手头的工作定制的昂贵的定制系统。事实上,据称超过一半的财富 500 强公司都在使用它。

Leave a Reply

Your email address will not be published. Required fields are marked *