【数据科学】

数据科学的概念十分宽泛,涵盖很多内容。本模块主要涉及基于Spark的数据挖掘,流数据处理(Scala,Python,Java);基于TensorFlow的深度学习(Python,C++);基于Hadoop的大数据存储(Java);以及传统数据库(SQL)和NoSQL数据库的技术积累。 国家实施大数据战略为数据科学的发展提供了很好的前景。大数据创新、利用大数据改造实体经济、政务大数据、民生大数据和数据安全等多方面都需要大数据技术的支持。

MYOAK博客 | 关注数据科学和算法编程的个人博客
数据科学

深度学习部署在生产环境(转)

MYOAK 2487  

作者:吴书卫本文整理自TalkingData T11大数据大会中吴书卫博士的演讲。主持人:我们或多或少听到很多智能的东西,比如AlphaGo、智能驾驶汽车,这里面都蕴含着一个东西,就是这两年非常火热的机器学习的分支深度学习(Deep Learning)。提到Deep Learning的话,大家可能都知道今年Goog...

MYOAK博客 | 关注数据科学和算法编程的个人博客
数据科学

Spark 笔记|教程 —— 如何使用spark-submit

MYOAK 1861  

我们用IDE或者Jupyter等在本地(local mode)运行测试代码非常方便,但是在实际应用中,由于数据量比较大,运行时间长,往往使用cluster mode,而且需要在Linux系统后台运行应用(比如用Screen),或者在server中自动或者定时运行应用(比如用Cron)。这就需要使用bin/spark-s...

MYOAK博客 | 关注数据科学和算法编程的个人博客
数据科学

Spark 笔记|教程 —— Spark SQL (Java API)

MYOAK 2667  

Spark SQL可以处理structured和semi-structured数据。这些数据在spark中通常被表示为Dataset(统称),就像数据库中的table一样。Dataset具有natural schema。Spark和Java可以在编译的时候(compile time)就知道Dataset中数据的类型,这...

MYOAK博客 | 关注数据科学和算法编程的个人博客
数据科学

Spark在Hadoop的HDFS中读取和存储数据

MYOAK 2818  

本文的前提是已经安装了Spark和Hadoop,安装方法可以参考我之前的两篇文章Hadoop安装及配置 —— MacOS High Sierra和Spark 笔记|教程 —— 安装 (Standalone Ubuntu|Mac)。首先我们从本地系统复制一个样本txt文件(请自行准备)到Hadoop的HDFS中。启动H...

MYOAK博客 | 关注数据科学和算法编程的个人博客
数据科学

Spark 连接 Cassandra

MYOAK 798  

Cassandra支持很多API,Spark也一样,这里用两者共同的Python API举例。首先需要安装Pyspark-Cassandra,它是基于Cassandra Spark Connector的。但是这里的安装是每次打开Pyspark都要执行的,并不是永久的安装。在terminal中pyspark的路径运行...

MYOAK博客 | 关注数据科学和算法编程的个人博客
数据科学

Spark 笔记|教程 —— 服务器上安装 (Standalone Ubuntu|Mac)

MYOAK 1254  

1.安装Java由于Spark是基于Scala的,依赖JVM的运行环境,所以需要安装Java。去官网下载Java8的安装包,这里需要注意的是如果在linux server上,不能用 wget 直接下载,会导致安装失败。要用本地电脑下载下来,然后在terminal session里面运行下面命令,把下载的文件上传到s...

MYOAK博客 | 关注数据科学和算法编程的个人博客
数据科学

Spark 笔记|教程 —— Python API

MYOAK 3066  

Spark 简介简单地列一下自己觉得比较重点的,具体可以参考Spark文档或相关教程。Spark是基于内存进行计算,比如进行数据计算的时候,产生的中间数据会存放在内存中,不需要经过硬盘的写入写出过程。这也就是Spark比Hadoop快很多的原因。Spark提供了Python API,所以可以用Python去写Sp...

MYOAK博客 | 关注数据科学和算法编程的个人博客
数据科学

Spark 连接 Cassandra

MYOAK 798  

Cassandra支持很多API,Spark也一样,这里用两者共同的Python API举例。首先需要安装Pyspark-Cassandra,它是基于Cassandra Spark Connector的。但是这里的安装是每次打开Pyspark都要执行的,并不是永久的安装。在terminal中pyspark的路径运行...

MYOAK博客 | 关注数据科学和算法编程的个人博客
数据科学

Python 批量导入数据(.csv)到 Cassandra

MYOAK 1761  

今天项目的supervisor说: 当你为解决完所有的bug而高兴时却发现程序的运行时间太长,这就是我的生活。—— 致把青春献给数据的码农们本文章要解决的问题是:在linux的虚拟机(VM)上,读取散布在不同文件夹的csv文件,并在每个csv文件中选取相同的特定的列,合并在一起导入到Cassandra的一个tabl...

MYOAK博客 | 关注数据科学和算法编程的个人博客
数据科学

Tensorflow笔记——TensorBoard

MYOAK 9349  

庞大的Deep Neural Network(DNN)会很复杂,让人难以理解。谷歌引入了TensorBoard(visualization tools), 可以从浏览器中打开,地址为:http://localhost:6006/。6006是倒过来的"goog"是不是谷歌味儿十足啊。通过TensorBoard,我们可以看...

MYOAK博客 | 关注数据科学和算法编程的个人博客
数据科学

Tensorflow笔记——Saving and Restoring Models

MYOAK 794  

Tensorflow中,模型的存储和恢复比较简单。模型存储之后,可以再任何时候重新载入,节省时间,方便以后和其他模型比较。另外,存储checkpoint非常有用,可以使你在电脑出现故障时,从上一个checkpoint继续。具体做法只需要在所有variable创建完成之后(i.e. at the end of the...

MYOAK博客 | 关注数据科学和算法编程的个人博客
数据科学

Tensorflow笔记——Gradient Descent

MYOAK 1232  

终于挖坑挖到Tensorflow了,以前的铲子,锹都不好使了,得开挖掘机了。希望到最后有条隧道把它们串起来,才能打起地道战。TensorFlow的上手还是比较难的,需要一定的时间去习惯,而且对涉及的算法需要有较好的理解,才能正确使用TensorFlow。这就需要有比较好的机器学习,线性代数,微积分等方面的基础。所以...

MYOAK博客 | 关注数据科学和算法编程的个人博客
数据科学

深度学习部署在生产环境(转)

MYOAK 2487  

作者:吴书卫本文整理自TalkingData T11大数据大会中吴书卫博士的演讲。主持人:我们或多或少听到很多智能的东西,比如AlphaGo、智能驾驶汽车,这里面都蕴含着一个东西,就是这两年非常火热的机器学习的分支深度学习(Deep Learning)。提到Deep Learning的话,大家可能都知道今年Goog...

MYOAK博客 | 关注数据科学和算法编程的个人博客
数据科学

Spark在Hadoop的HDFS中读取和存储数据

MYOAK 2818  

本文的前提是已经安装了Spark和Hadoop,安装方法可以参考我之前的两篇文章Hadoop安装及配置 —— MacOS High Sierra和Spark 笔记|教程 —— 安装 (Standalone Ubuntu|Mac)。首先我们从本地系统复制一个样本txt文件(请自行准备)到Hadoop的HDFS中。启动H...

MYOAK博客 | 关注数据科学和算法编程的个人博客
数据科学

Hadoop安装及配置 —— MacOS High Sierra

MYOAK 2108  

折腾了小半天,看了官方文档和许多博客,终于在Mac里安装上了Hadoop。所以在这里总结一下,让更少的人走弯路。Hadoop安装最好还是在Linux里面,毕竟以后的工作环境肯定是Linux,不过平时可以在Mac练练手,毕竟装个虚拟机的话要占用Mac的配置。一开始我看了一篇用Homebrew安装的文章,以为brew会...