MYOAK博客 | 关注数据科学和算法编程的个人博客
数据科学

深度学习部署在生产环境(转)

MYOAK 2268

作者:吴书卫本文整理自TalkingData T11大数据大会中吴书卫博士的演讲。主持人:我们或多或少听到很多智能的东西,比如AlphaGo、智能驾驶汽车,这里面都蕴含着一个东西,就是这两年非常火热的机器学习的分支深度学习(Deep Learning)。提到Deep Learning的话,大家可能都知道今年Goog...

MYOAK博客 | 关注数据科学和算法编程的个人博客
数据科学

Spark 笔记|教程 —— 如何使用spark-submit

MYOAK 1734

我们用IDE或者Jupyter等在本地(local mode)运行测试代码非常方便,但是在实际应用中,由于数据量比较大,运行时间长,往往使用cluster mode,而且需要在Linux系统后台运行应用(比如用Screen),或者在server中自动或者定时运行应用(比如用Cron)。这就需要使用bin/spark-s...

MYOAK博客 | 关注数据科学和算法编程的个人博客
数据科学

Spark 笔记|教程 —— Spark SQL (Java API)

MYOAK 2395

Spark SQL可以处理structured和semi-structured数据。这些数据在spark中通常被表示为Dataset(统称),就像数据库中的table一样。Dataset具有natural schema。Spark和Java可以在编译的时候(compile time)就知道Dataset中数据的类型,这...

MYOAK博客 | 关注数据科学和算法编程的个人博客
数据科学

Spark在Hadoop的HDFS中读取和存储数据

MYOAK 2468

本文的前提是已经安装了Spark和Hadoop,安装方法可以参考我之前的两篇文章Hadoop安装及配置 —— MacOS High Sierra和Spark 笔记|教程 —— 安装 (Standalone Ubuntu|Mac)。首先我们从本地系统复制一个样本txt文件(请自行准备)到Hadoop的HDFS中。启动H...

MYOAK博客 | 关注数据科学和算法编程的个人博客
数据科学

Spark 连接 Cassandra

MYOAK 711

Cassandra支持很多API,Spark也一样,这里用两者共同的Python API举例。首先需要安装Pyspark-Cassandra,它是基于Cassandra Spark Connector的。但是这里的安装是每次打开Pyspark都要执行的,并不是永久的安装。在terminal中pyspark的路径运行...

MYOAK博客 | 关注数据科学和算法编程的个人博客
数据科学

Spark 笔记|教程 —— 服务器上安装 (Standalone Ubuntu|Mac)

MYOAK 1199

1.安装Java由于Spark是基于Scala的,依赖JVM的运行环境,所以需要安装Java。去官网下载Java8的安装包,这里需要注意的是如果在linux server上,不能用 wget 直接下载,会导致安装失败。要用本地电脑下载下来,然后在terminal session里面运行下面命令,把下载的文件上传到s...

MYOAK博客 | 关注数据科学和算法编程的个人博客
数据科学

Spark 笔记|教程 —— Python API

MYOAK 2932

Spark 简介简单地列一下自己觉得比较重点的,具体可以参考Spark文档或相关教程。Spark是基于内存进行计算,比如进行数据计算的时候,产生的中间数据会存放在内存中,不需要经过硬盘的写入写出过程。这也就是Spark比Hadoop快很多的原因。Spark提供了Python API,所以可以用Python去写Sp...