windows上大数据挖掘环境搭建
部署windows上的开发环境必然是方便数据挖掘工作的。
比如模型的开发、集群任务提交、数据产品项目开发、模型算法的优化及重构。
1,安装jdk
可以下载最新版jdk。
(1)新建JAVA_HOME,为C:\Program Files\Java\jdk1.8.0_20。
(2)新建CLASSPATH,为“.;%JAVA_HOME%/lib/dt.jar;%JAVA_HOME%/lib/tools.jar;”
(3)编辑Path,添加“;%JAVA_HOME%/bin;%JAVA_HOME%/jre/bin”
事实上,安装最新版的jdk后,去看一下环境变量就会发现jdk的环境变量已经设置好了。这在安装的时候勾选设置环境变量即可。如果没有设置,自行设置即可。
2,IDE安装和配置
Eclipse或者Spring Tool Suite版本的eclipse等。
64位STS版本的eclipse代码开发IDE下载地址:
https://pan.baidu.com/s/1jIAsr9W#list/path=%2F
安装包下载后进行解压就可以,可以创建桌面快捷方式
3,写MapReduce/Spark代码的IDE插件的加载
hadoop-eclipse-plugin-2.6.0.jar
下载地址:https://pan.baidu.com/s/1mhP7b3i
请区分hadoop版本,可以去网上下载对应版本,自己编译的话稍微麻烦一点,也可以自己编译。
将Jar包放在STS目录,位置于\sts-bundle\sts-3.8.1.RELEASE\dropins下。
4, Maven的安装配置
使用Maven进行项目管理。
下载地址:可以去官网下载。
3.3.3版本
https://pan.baidu.com/s/1gePHnWJ#list/path=%2F
3.3.9版本
https://pan.baidu.com/s/1jItxoF0#list/path=%2F
安装包解压后,设置MAVEN的变量MAVEN_HOME,并将该环境变量添加到PATH中。
5,hadoop包的下载配置
hadoop代码执行环境。
代码执行过程中依赖hadoop的环境,因此需要配置hadoop的执行路径。
可以下载2.6.0版本的hadoop,根据自己使用的情况来下载安装。
下载地址:
https://pan.baidu.com/s/1bpzbmZt#list/path=%2F
安装包解压到自己指定的目录后,设置系统变量HADOOP_HOME
将HADOOP_HOME添加到PATH中
6,hadoop插件的加载配置
代码执行过程中依赖hadoop的JAR插件。
可以自己编译或者从github等网站下载,放到上述hadoop发行版的解压包的bin目录下即可。
2.6.0版本的下载地址:
https://pan.baidu.com/s/1slpLlId#list/path=%2F
安装包解压到指定目录
将hadoop.dll和winutils.exe放到hadoop的bin目录下即可。
7,spark包的下载配置
spark代码执行环境。
代码执行过程中依赖spark环境,因此需要配置spark的执行路径。
需要下载包放置在指定目录,
设置系统变量并添加到PATH。
spark-1.6.2-bin-hadoop2.6版本的插件下载
https://pan.baidu.com/s/1skA3GHv#list/path=%2F
这是插件吗,这是spark组件的发行版或源码包。
cmd下输入spark-shell验证是否安装成功。
8,scala环境的安装配置
代码执行过程中依赖scala的配置环境,。
需要安装scala环境,并设置全局变量和路径。
2.10.4
https://pan.baidu.com/s/1c2kMces#list/path=%2F
2.11.0
https://pan.baidu.com/s/1bS9oTo#list/path=%2F
安装包安装在指定目录
设置全局变量SCALA_HOME和添加路径PATH
cmd下输入scala验证安装是否成功。
9,scala ide集成插件的加载配置
IDE集成环境执行过程中依赖scala插件的相关JAR包。
下载相应版本的scala ide。
将features和plugins目录下的文件都复制到上述STS集成环境下。
将安装包解压,复制features和plugins目录下的文件到\sts-bundle\sts-3.8.1.RELEASE\ 下的同命名文件目录中。
数据挖掘项目的开发
--------------数据产品中的数据挖掘
1,创建MAVEN工程
2,创建工程中的对象
3,配置pom.xml文件
配置该文件的目的是下载Spark相关的依赖包。
4,代码实现一个朴素贝叶斯模型里涉及先验概率计算的逻辑
部署windows上的开发环境必然是方便数据挖掘工作的。
比如模型的开发、集群任务提交、数据产品项目开发、模型算法的优化及重构。
本文暂时没有评论,来添加一个吧(●'◡'●)