【算法编程】

本模块主要涉及C++、Java、Python、Scala四种编程语言的技术积累,包括常用代码块汇总,常用场景示例,数据结构,算法实现等方面。 此外,会着重讨论编程语言在大数据,人工智能发面的具体应用。不同的编程语言各有优劣,C++底层控制强;Java稳定,应用广;Python简单易懂,数据科学有广泛应用;Scala在大数据技术方面存在优势,Functional Programming是其特点之一。

MYOAK博客 | 关注数据科学和算法编程的个人博客
算法编程

电影院订座系统基本原理Java

MYOAK 10306  

本文主要记录下电影院订座系统的基本逻辑(不涉及并发等复杂问题),当然也可以用于很多其他的订座系统。可以按顺序打印出座位号。并且设定不同区域座位的不同价格,并按照价格的高低顺序排列出座位。用户输入其选择的座位号,如果该座位已经被预定,进行提示,否则提示预定所需价格。用户也可以取消预定座位。代码中通过用Seat类impl...

MYOAK博客 | 关注数据科学和算法编程的个人博客
数据科学

Spark 笔记|教程 —— Spark SQL (Java API)

MYOAK 2668  

Spark SQL可以处理structured和semi-structured数据。这些数据在spark中通常被表示为Dataset(统称),就像数据库中的table一样。Dataset具有natural schema。Spark和Java可以在编译的时候(compile time)就知道Dataset中数据的类型,这...

MYOAK博客 | 关注数据科学和算法编程的个人博客
算法编程

数据结构——图之最小生成树(Minimum Spanning Tree)及其C++代码

MYOAK 949  

求图的最小生成树的算法有Prim和Kruskal。下面将根据下图的例子进行说明如何求得最小生成树。图中的边上的数值是权值,比如说A、B两点之间修路成本,等等,最后达到使所有地点连通,成本最小。代码是基于上篇文章中图的遍历的代码的,所以重复的就不再列出,可以参见上篇文章《数据结构——图(Graph)及其C++代码...

MYOAK博客 | 关注数据科学和算法编程的个人博客
算法编程

数据结构——图(Graph)及其C++代码实现

MYOAK 3817  

图的基本概念线性表和树两类数据结构,线性表中的元素是“一对一”的关系,树中的元素是“一对多”的关系,本章所述的图结构中的元素则是“多对多”的关系。图(Graph)是一种复杂的非线性结构,在图结构中,每个元素都可以有零个或多个前驱,也可以有零个或多个后继,也就是说,元素之间的关系是任意的。图分为有向图和无向图。无向图...

暂时还没有发布的文章
MYOAK博客 | 关注数据科学和算法编程的个人博客
算法编程

Python3常用代码汇总二(未完)

MYOAK 954  

写着写着《Python3常用代码汇总一》的目录已经差不多写满了,于是就有了二。The Zen of Python在Python shell里面直接输入import this回车,就可以显示Tim Peters写的关于Python的禅宗。The Zen of Python, by Tim PetersBeau...

MYOAK博客 | 关注数据科学和算法编程的个人博客
数据科学

Tensorflow笔记——TensorBoard

MYOAK 9349  

庞大的Deep Neural Network(DNN)会很复杂,让人难以理解。谷歌引入了TensorBoard(visualization tools), 可以从浏览器中打开,地址为:http://localhost:6006/。6006是倒过来的"goog"是不是谷歌味儿十足啊。通过TensorBoard,我们可以看...

MYOAK博客 | 关注数据科学和算法编程的个人博客
数据科学

Tensorflow笔记——Saving and Restoring Models

MYOAK 794  

Tensorflow中,模型的存储和恢复比较简单。模型存储之后,可以再任何时候重新载入,节省时间,方便以后和其他模型比较。另外,存储checkpoint非常有用,可以使你在电脑出现故障时,从上一个checkpoint继续。具体做法只需要在所有variable创建完成之后(i.e. at the end of the...

MYOAK博客 | 关注数据科学和算法编程的个人博客
数据科学

Tensorflow笔记——Gradient Descent

MYOAK 1232  

终于挖坑挖到Tensorflow了,以前的铲子,锹都不好使了,得开挖掘机了。希望到最后有条隧道把它们串起来,才能打起地道战。TensorFlow的上手还是比较难的,需要一定的时间去习惯,而且对涉及的算法需要有较好的理解,才能正确使用TensorFlow。这就需要有比较好的机器学习,线性代数,微积分等方面的基础。所以...

MYOAK博客 | 关注数据科学和算法编程的个人博客
数据科学

机器学习笔记——Custom Transformers

MYOAK 1249  

对于特定的机器学习的任务,我们常常需要自己定义transformer,比如清理数据或者合并特定的attributes。在使用Scikit-Learn时,最好的方法是可以和Scikit-Learn的其他功能无缝连接,比如可以使你的自定义transformer在pipeline里面使用。所以你只需要自定义一个具有fit()...

MYOAK博客 | 关注数据科学和算法编程的个人博客
数据科学

Spark 连接 Cassandra

MYOAK 798  

Cassandra支持很多API,Spark也一样,这里用两者共同的Python API举例。首先需要安装Pyspark-Cassandra,它是基于Cassandra Spark Connector的。但是这里的安装是每次打开Pyspark都要执行的,并不是永久的安装。在terminal中pyspark的路径运行...

MYOAK博客 | 关注数据科学和算法编程的个人博客
数据科学

Python 批量导入数据(.csv)到 Cassandra

MYOAK 1761  

今天项目的supervisor说: 当你为解决完所有的bug而高兴时却发现程序的运行时间太长,这就是我的生活。—— 致把青春献给数据的码农们本文章要解决的问题是:在linux的虚拟机(VM)上,读取散布在不同文件夹的csv文件,并在每个csv文件中选取相同的特定的列,合并在一起导入到Cassandra的一个tabl...

MYOAK博客 | 关注数据科学和算法编程的个人博客
数据科学

Spark 笔记|教程 —— Python API

MYOAK 3066  

Spark 简介简单地列一下自己觉得比较重点的,具体可以参考Spark文档或相关教程。Spark是基于内存进行计算,比如进行数据计算的时候,产生的中间数据会存放在内存中,不需要经过硬盘的写入写出过程。这也就是Spark比Hadoop快很多的原因。Spark提供了Python API,所以可以用Python去写Sp...