共计 1636 个字符,预计需要花费 5 分钟才能阅读完成。
这篇文章主要为大家分析了 Apache Zeppelin Notebook 和 R 的示例分析的相关知识点,内容详细易懂,操作细节合理,具有一定参考价值。如果感兴趣的话,不妨跟着跟随丸趣 TV 小编一起来看看,下面跟着丸趣 TV 小编一起深入学习“Apache Zeppelin Notebook 和 R 的示例分析”的知识吧。
介绍
丸趣 TV 小编目的是帮助您开始使用 Apache Zeppelin Notebook,它可以满足您用 R 做数据科学的需求。Zeppelin 是一个提供交互数据分析且基于 Web 的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档,并且支持多种语言,包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、Hive、Markdown、Shell 等等。而且 Zeppelin 支持自己重写各种语言的插件,是很方便扩展的。
然而, 最新的官方版本是 0.5.0, 还不支持 R 编程语言。幸运的是,NFLabs 公司做了个开源项目, 让我提供了一个 R 的编译器。这个编译器是让用户可以使用自定义的语言做为数据处理后端的一个 Zeppelin 插件。例如在 Zeppelin 使用 scala 代码, 您需要一个 Spark 编译器。所以, 如果你像我一样有足够的耐心将 R 集成到 Zeppelin 中,这个教程将告诉你怎样从源码开始配置 Zeppelin 和 R。
准备工作
我们将通过 Bash shell 在 Linux 上安装 Zeppelin。如果您使用的是 Windows 操作系统, 我建议您安装和使用 Cygwin 终端 (它提供功能类似于 Windows 上的 Linux 发行版)。
确保 Java 1.7 和 Maven 3.2.x 是已经安装并且配置到环境变量中。
从源代码构建 Zeppelin 第一步: 下载 Zeppelin 源代码
去这 github 分支下载源代码,将这个链接复制并粘贴到你的浏览器:https://github.com/elbamos/incubator-zeppelin/tree/rinterpreter
在我的例子中我已经下载并解压文件夹在我的桌面
第二步: 构建 Zeppelin
假设你是安装在单机,打开你的 Terminal,运行下面的代码。如果你是安装在一个集群,会稍微复杂一点,具体步骤 Zeppelin 的文档中找到。
$ cd Desktop/Apache/incubator-zeppelin-rinterpreter
$ mvn clean package -DskipTests
这将需要约 16 分钟构建 Zeppelin、Spark, 所有引擎包括 R,markdown,shell,hive 等。(见下图)。
第三步: 启动 Zeppelin
运行以下命令启动 Zeppelin:
$ ./bin/zeppelin-daemon.sh start
打开 web 浏览器,访问 http://localhost:8080。此时, 您已经准备好开始在 Zeppelin 用代码创建交互笔记本。
交互式数据科学第一步: 创建一个笔记本
单击下拉箭头旁边的“笔记本”页面, 点击“创建新报告”。
给你的笔记本命名或您可以使用指定的缺省名称。我命名为“Base R in Apache Zeppelin”。
第二步: 开始你的分析
如下图所示,调用 R 可以用“%spark.r”或“%spark.knitr”标签。首先让我们用 markdown 写一些介绍。
根据我们可能需要我们的分析,现在让我们来安装一些包。
我们将使用“flights”数据集显示 2013 年离开纽约的航班,现在让我们读取数据集。
现在, 让我们使用 dplyr(用管道符) 做一些数据操作。
您还可以使用条形图和饼图来可视化一些描述性统计数据。
现在, 让我们与 ggplot2 共舞。
现在, 让我们用 caret 包做一些统计的机器学习。
最后,绘制几个地图。
关于“Apache Zeppelin Notebook 和 R 的示例分析”就介绍到这了, 更多相关内容可以搜索丸趣 TV 以前的文章,希望能够帮助大家答疑解惑,请多多支持丸趣 TV 网站!