编程开源技术交流,分享技术与知识

网站首页 > 开源技术 正文

windows上大数据挖掘环境搭建:搭建数据分析体系78篇

wxchong 2024-07-18 09:39:10 开源技术 8 ℃ 0 评论

windows上大数据挖掘环境搭建

部署windows上的开发环境必然是方便数据挖掘工作的。

比如模型的开发、集群任务提交、数据产品项目开发、模型算法的优化及重构。

1,安装jdk

可以下载最新版jdk。

(1)新建JAVA_HOME,为C:\Program Files\Java\jdk1.8.0_20。

(2)新建CLASSPATH,为“.;%JAVA_HOME%/lib/dt.jar;%JAVA_HOME%/lib/tools.jar;”

(3)编辑Path,添加“;%JAVA_HOME%/bin;%JAVA_HOME%/jre/bin”

事实上,安装最新版的jdk后,去看一下环境变量就会发现jdk的环境变量已经设置好了。这在安装的时候勾选设置环境变量即可。如果没有设置,自行设置即可。

2,IDE安装和配置

Eclipse或者Spring Tool Suite版本的eclipse等。

64位STS版本的eclipse代码开发IDE下载地址:

https://pan.baidu.com/s/1jIAsr9W#list/path=%2F

安装包下载后进行解压就可以,可以创建桌面快捷方式

3,写MapReduce/Spark代码的IDE插件的加载

hadoop-eclipse-plugin-2.6.0.jar

下载地址:https://pan.baidu.com/s/1mhP7b3i

请区分hadoop版本,可以去网上下载对应版本,自己编译的话稍微麻烦一点,也可以自己编译。

将Jar包放在STS目录,位置于\sts-bundle\sts-3.8.1.RELEASE\dropins下。

4, Maven的安装配置

使用Maven进行项目管理。

下载地址:可以去官网下载。

3.3.3版本

https://pan.baidu.com/s/1gePHnWJ#list/path=%2F

3.3.9版本

https://pan.baidu.com/s/1jItxoF0#list/path=%2F

安装包解压后,设置MAVEN的变量MAVEN_HOME,并将该环境变量添加到PATH中。

5,hadoop包的下载配置

hadoop代码执行环境。

代码执行过程中依赖hadoop的环境,因此需要配置hadoop的执行路径。

可以下载2.6.0版本的hadoop,根据自己使用的情况来下载安装。

下载地址:

https://pan.baidu.com/s/1bpzbmZt#list/path=%2F

安装包解压到自己指定的目录后,设置系统变量HADOOP_HOME

将HADOOP_HOME添加到PATH中

6,hadoop插件的加载配置

代码执行过程中依赖hadoop的JAR插件。

可以自己编译或者从github等网站下载,放到上述hadoop发行版的解压包的bin目录下即可。

2.6.0版本的下载地址:

https://pan.baidu.com/s/1slpLlId#list/path=%2F

安装包解压到指定目录

将hadoop.dll和winutils.exe放到hadoop的bin目录下即可。

7,spark包的下载配置

spark代码执行环境。

代码执行过程中依赖spark环境,因此需要配置spark的执行路径。

需要下载包放置在指定目录,

设置系统变量并添加到PATH。

spark-1.6.2-bin-hadoop2.6版本的插件下载

https://pan.baidu.com/s/1skA3GHv#list/path=%2F

这是插件吗,这是spark组件的发行版或源码包。

cmd下输入spark-shell验证是否安装成功。

8,scala环境的安装配置

代码执行过程中依赖scala的配置环境,。

需要安装scala环境,并设置全局变量和路径。

2.10.4

https://pan.baidu.com/s/1c2kMces#list/path=%2F

2.11.0

https://pan.baidu.com/s/1bS9oTo#list/path=%2F

安装包安装在指定目录

设置全局变量SCALA_HOME和添加路径PATH

cmd下输入scala验证安装是否成功。

9,scala ide集成插件的加载配置

IDE集成环境执行过程中依赖scala插件的相关JAR包。

下载相应版本的scala ide。

将features和plugins目录下的文件都复制到上述STS集成环境下。

将安装包解压,复制features和plugins目录下的文件到\sts-bundle\sts-3.8.1.RELEASE\ 下的同命名文件目录中。

数据挖掘项目的开发

--------------数据产品中的数据挖掘

1,创建MAVEN工程

2,创建工程中的对象

3,配置pom.xml文件

配置该文件的目的是下载Spark相关的依赖包。

4,代码实现一个朴素贝叶斯模型里涉及先验概率计算的逻辑

部署windows上的开发环境必然是方便数据挖掘工作的。

比如模型的开发、集群任务提交、数据产品项目开发、模型算法的优化及重构。

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表