MYOAK博客 | 关注数据科学和算法编程的个人博客
算法编程

Python3常用代码汇总二(未完)

MYOAK 954

写着写着《Python3常用代码汇总一》的目录已经差不多写满了,于是就有了二。The Zen of Python在Python shell里面直接输入import this回车,就可以显示Tim Peters写的关于Python的禅宗。The Zen of Python, by Tim PetersBeau...

MYOAK博客 | 关注数据科学和算法编程的个人博客
数据科学

Tensorflow笔记——TensorBoard

MYOAK 9349

庞大的Deep Neural Network(DNN)会很复杂,让人难以理解。谷歌引入了TensorBoard(visualization tools), 可以从浏览器中打开,地址为:http://localhost:6006/。6006是倒过来的"goog"是不是谷歌味儿十足啊。通过TensorBoard,我们可以看...

MYOAK博客 | 关注数据科学和算法编程的个人博客
数据科学

Tensorflow笔记——Saving and Restoring Models

MYOAK 794

Tensorflow中,模型的存储和恢复比较简单。模型存储之后,可以再任何时候重新载入,节省时间,方便以后和其他模型比较。另外,存储checkpoint非常有用,可以使你在电脑出现故障时,从上一个checkpoint继续。具体做法只需要在所有variable创建完成之后(i.e. at the end of the...

MYOAK博客 | 关注数据科学和算法编程的个人博客
数据科学

Tensorflow笔记——Gradient Descent

MYOAK 1232

终于挖坑挖到Tensorflow了,以前的铲子,锹都不好使了,得开挖掘机了。希望到最后有条隧道把它们串起来,才能打起地道战。TensorFlow的上手还是比较难的,需要一定的时间去习惯,而且对涉及的算法需要有较好的理解,才能正确使用TensorFlow。这就需要有比较好的机器学习,线性代数,微积分等方面的基础。所以...

MYOAK博客 | 关注数据科学和算法编程的个人博客
数据科学

机器学习笔记——Custom Transformers

MYOAK 1249

对于特定的机器学习的任务,我们常常需要自己定义transformer,比如清理数据或者合并特定的attributes。在使用Scikit-Learn时,最好的方法是可以和Scikit-Learn的其他功能无缝连接,比如可以使你的自定义transformer在pipeline里面使用。所以你只需要自定义一个具有fit()...

MYOAK博客 | 关注数据科学和算法编程的个人博客
数据科学

Spark 连接 Cassandra

MYOAK 798

Cassandra支持很多API,Spark也一样,这里用两者共同的Python API举例。首先需要安装Pyspark-Cassandra,它是基于Cassandra Spark Connector的。但是这里的安装是每次打开Pyspark都要执行的,并不是永久的安装。在terminal中pyspark的路径运行...

MYOAK博客 | 关注数据科学和算法编程的个人博客
数据科学

Python 批量导入数据(.csv)到 Cassandra

MYOAK 1761

今天项目的supervisor说: 当你为解决完所有的bug而高兴时却发现程序的运行时间太长,这就是我的生活。—— 致把青春献给数据的码农们本文章要解决的问题是:在linux的虚拟机(VM)上,读取散布在不同文件夹的csv文件,并在每个csv文件中选取相同的特定的列,合并在一起导入到Cassandra的一个tabl...

MYOAK博客 | 关注数据科学和算法编程的个人博客
数据科学

Spark 笔记|教程 —— Python API

MYOAK 3066

Spark 简介简单地列一下自己觉得比较重点的,具体可以参考Spark文档或相关教程。Spark是基于内存进行计算,比如进行数据计算的时候,产生的中间数据会存放在内存中,不需要经过硬盘的写入写出过程。这也就是Spark比Hadoop快很多的原因。Spark提供了Python API,所以可以用Python去写Sp...