博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Hadoop平台相关技术
阅读量:4290 次
发布时间:2019-05-27

本文共 621 字,大约阅读时间需要 2 分钟。

HDFS分布式文件系统

HDFS用于存储Hadoop集群中的所有文件,主要被设计用来提高大数据文件的存取速率,将大文件按块平分,通常每块64MB,然后将数据块存储到不同机器上,在读取数据的时候就可以同时从多个机器上读取相关区块的文件,提髙大文件读取效率。在数据访问方面与传统文件系统有所不同,以流式访问数据,不支持文件随机写入,只能在文件末尾进行追加。

由于HDFS通常被部署在廉价的普通PC机上,机器出现故障的概率就远高于昂贵的高配置大型机。为了预防因机器故障导致文件丢失或者不完整的情况,HDFS将集群中所有机器都认为是可能出问题的,其将同一个文件块多个副本分别存储到不同机器上以作备份,一旦某台机器出现故障,就可以从其他人机器上读取副本,具有良好的容错性。

MapReduce并行计巧框架

MapReduce是Hadoop下的分布式数据处理模型,主要用于大规模数据集的并行处理。其基本原理是:首先将大规模数据集切分成若干个小规模数据分片,每个数据分片作为一个map任务输入参数,然后并行执行map任务。Map任务结束后,将结果通过hash油分区分配给reduce任务进行汇总处理。Hadoop将作业分成若干个map任务和reduce任务来执行,对于不熟悉分布式编程的人员来说,只需填写map和reduce处理操作,并不需要理会底层分布式并行计算机制,大大地降低了分布式计算编程的口槛。

转载地址:http://nvggi.baihongyu.com/

你可能感兴趣的文章
延迟队列有哪些实现方案?说说你的看法
查看>>
厉害了!我们老大半小时把我的springboot项目并发提升几倍
查看>>
Spring 中Bean 的生命周期
查看>>
为什么要用枚举实现单例模式(避免反射、序列化问题)
查看>>
微服务架构下的分布式限流方案思考
查看>>
全网最详细的一篇SpringCloud总结
查看>>
消息中间件中的有序消息,其实是排队但是不能插队
查看>>
mysql为什么使用B+树作为索引的结构
查看>>
mysql索引总结(1)-mysql 索引类型以及创建(文章写的不错!!!)
查看>>
聊聊CAS - 面试官最喜欢问的并发编程专题
查看>>
Spring Boot 中使用一个注解轻松将 List 转换为 Excel 下载
查看>>
高并发环境下,先操作数据库还是先操作缓存?
查看>>
MySQL Explain详解
查看>>
一直搞不清楚什么是读写分离,主从复制的原理,今天总算搞懂了
查看>>
消息队列 mq 必会面试题
查看>>
线程池的工作原理是啥?能手写一个线程池吗?
查看>>
Java程序内存的简单分析
查看>>
Javascript单例模式概念与实例
查看>>
SQL NULL 函数
查看>>
多例设计模式
查看>>