初识Hadoop-SQOOP(Day13)

前戏 配置运行SQOOP 配置 中间格式:Json tar -zxf sqoop-1.4.6-cdh5.7.6.tar.gz -C /opt/modules/ 目录结构 赋值Jar包 [hadoop@hadoop sqoop-1.4.6-cdh5.7.6]$ cp /opt/tools/mysql-connector-java-5.1.27-bin…
初识Hadoop-Hive案例(Day14)

Python和R语言,谁更适合Hadoop、Spark和机器学习 分析数据的结构 1,usca,1,1,1,0,0,0,1,1,1,0,0,1,0,7,Anaconda;scikit-learn;Python;R language;SQL language;Tensorflow;Other Deep Learning Tools 创建数据库数据表 …
初识Hadoop-Hive练习(Day13)

emp数据表分析 上传数据 创建数据表 导入数据 上传dept 创建表加载数据 从本地读取数据(复制文件到HDFS上) load data local inpath; 从HDFS上读取数据(移动文件到warehouse中) load data inpath ''; 创建数据库的方式 传统语句 hive> create table dept( …
初识Hadoop-Hive搭建和测试(Day12)

一、搭建Hive 上传解压Hive 修改配置文件 改名 修改内容 在HDFS上创建Hive的操作目录(目录名称不能修改其他名字) 确认tmp文件夹在hdfs上存在 赋予用户组写权限 递归创建目录并赋予权限(目录名称不能更改!) 二、Hive测试使用 创建样例 启动Hive [hadoop@hadoop hive-1.1.0-cdh5.7.6]$ b…
初识Hadoop-Hive初识(Day11)

x# 回顾日志内容 out为启动日志 如果启动出现异常需要到后缀名为log的文件中查看 关于HDFS启动失败: 1. namenode启动后崩溃,但是datanode活着 namenode的作用是什么? namenode的作用:记录元数据(一个文件被切片为几份,切片以及副本在哪些从节点上) 这些元数据第一次格式化后被清空,以后每次存储文件,完成后,…
初识Hadoop-MR编程PV&UV企业案例(Day10)

数据收集 背景和数据介绍 pv(Page View)一个网站最基本的数据指标 uv(Unique Visitor)一天内一个访客访问多次只记录一个uv (1)数据收集 浏览器请求地址 https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&tn=baidu&wd=fo…
初识Hadoop-Ubuntu开发环境搭建(Day09)

基础配置 (1)网络配置 (2)安装openssh-server (3)配置Java环境,安装Eclipse 在Eclipse的ini中添加java路径 配置完成创建项目 注意,JavaTools只有WIndows才会用 接下来的过程和CentOS+Windows一样,不做描述了,可以参考之前的文章
初识Hadoop-MapReduce编程(Day08)

MapReduce编程 Wordcount实现 1、开发工具介绍 (1)maven 不使用最新版本,会和Hadoop冲突,默认使用3.3.9 使用方法: 1. 下载后解压缩到安装目录,并创建仓库文件夹 2. 设置配置文件settings.xml 修改仓库位置 配置国内镜像 (2)Eclipse 设置字符集 设置Maven 2、开发wordcount…
初识Hadoop-Hadoop平台搭建和使用(Day07)

一、安装配置Hadoop 1.基础环境确认 设置IP地址等信息,能联网 修改hostname 创建对应的用户haddop 对hadoop用户配置sudo权限 切换root用户卸载默认jdk 关闭防火墙及关闭开机自启 关闭selinux 创建文件夹 安装Oracle的Jdk1.8(官方指定),解压 jdk到/opt/modules/文件夹 修改环境变…
初识Hadoop-Hadoop简介(Day06)
一、Hadoop是什么 历史背景 (1)简介 Hadoop是大数据的开源框架,主要解决两个问题:海量数据的存储和海量存储的运算 (2)Hadoop处理海量存储和海量计算的包含模块 Hadoop Common: 支持其他的Hadoop模块的通用工具,对用户来说是无感知的 Hadoop Distributed File System(HDFS)Hado…