7HADOOP大数据生态体系技术
- 在写mapreduce的mapper类时,需要重写map方法
- 在写MapRedcue程序的Reducer类时,需要重写reduce方法
- 在linux中,ls /a 显示a目录下的文件和目录名
- cd /a命令切换/a的目录
- hadoop fs –cp作用把hadoop文件系统下的文件拷贝到hadoop的文件系统中
- hadoop fs –ls /显示hadoop文件系统/目录下文件和目录
- hadoop fs –put /root/file.txt /usr把linux文件系统/root的file文件上传到hadoop文件系统的/usr
- hadoop fs –chmod +w /a.txt 作用赋予hadoop文件系统中/a.txt文件写权限
- hadoop fs –text /a.txt作用查看hadoop /下的a.txt文件文本内容
- hadoop fs -mkdir /dir 在hadoop文件系统中创建/dir目录
- 在hadoop文件系统中创建/dir目录统计hadoop文件系统/dir下的文件和目录情况
Hadoop fs -mkdir /dir
Hadoop fs -count /dir
12.把hadoop文件系统文件下载到本地,需要经过哪些步骤
1)客户端向namenode发起读取请求
2)namenode接收到读取请求后,首先会检查请求的合法性,包括文件是否存在、权限是否满足等。如果请求合法,主节点会返回包含数据块位置信息的元数据给客户端。.
3)客户端获取数据块位置信息
4)客户端与数据节点建立连接
5)客户端发送读取请求给数据节点
6)数据节点接收到读取请求后,会根据请求的信息读取对应的数据块。数据节点会将数据块的内容读取到内存中,并通过网络发送给客户端.
13介绍hadoop集群的计算系统有哪些进程,并介绍每个进程的作用
ResourceManager负责:负责管理
1、接收和处理客户端的请求
2、管理NodeManager
3、启动和管理ApplicationMaster
NodeManager负责:负责存储(data)
- 管理单节点的资源
- 处理来自ResourceManager的命令
- 处理来自ApplicationMaster的命令
14.hive在开发中的地位
Hive定位主要用在数据分析,善于查询;
在开发中hive主担负数据存储和计算。
- hadoop Java API流把hadoop文件系统下/upload.txt下载到d:/upload.txt下?
public static void main(String[] args) { Configuration configuration = new Configuration(); try { FileSystem fs = FileSystem.get(new URI("hdfs://192.168.38.101:9000"), configuration); //为什么input 而不是output FSDataInputStream open = fs.open(new Path("/upload.txt")); FileOutputStream out = new FileOutputStream("d:/upload.txt"); byte c[] = new byte[1024]; while (true) {//t是读取的数据长度 int t = open.read(c); if (t == -1) { break; } else { // out.write(c, 0, t); String str=new String(c,0,t); System.out.println(str); } } open.close(); out.close(); } catch (Exception e) { e.printStackTrace(); }
- 在hive下创建student表表,表中包括3列,sid为int类型,sname为string类型,sage为int型,分割符’ ’,
Create table student(sid int,sname string,sage int) row format delimited fields terminated by ‘ ’;