张店长的博客


  • Home

  • About

  • Archives

博客搬家了

Posted on 2017-07-11 |

方案

今天把博客从 WordPress 上搬到了 GitHub Pages 上来,因为 WordPress 后台打开实在太卡了,虽然后来改成了在本地用 MarkDown 写,但每次打开控制台、新建文章、粘贴还是要等进度条。因此我打算把博客搬到 GitHub Pages 上面。
通常搭建在 GitHub Pages 上面的博客有两种方案,一种是使用 Jekyll, 另一种是使用 Hexo. 因为我已经看好了 Hexo 中一个叫做 Next 的主题,所以我选用了 Hexo.

Read more »

使用R语言绘制《深夜食堂》影评词云图

Posted on 2017-07-04 |

上篇文章从豆瓣爬取了《黄小厨和他的明星朋友们》又名《深夜食堂华语版》的影评,共 47650 条。这篇文章用这些数据来绘制一个词云。首先是我使用的工具和环境:

工具和环境

系统: ubuntu 16.04
语言:R version 3.2.3
IDE: RStudio 1.0.136

本来这篇文章是想用 R Markdown 来写的,可是在 Ubuntu 系统里面 RStudio 有不支持中文输入的问题,而且一直没有找到有效的解决办法,所以只能放弃。而且从下面的代码里能看到,我的注释都是英文的…而且在上篇写爬虫的时候还遇到 sublime text 3 不能使用中文输入法的问题,同样也没有比较好的解决方法,真是气死人了。

Read more »

scrapy爬虫——爬取豆瓣影评

Posted on 2017-07-03 |

最近用 scrapy 写了一个爬取豆瓣影评的爬虫。在这里把步骤以及解决相关问题的思路写一下。首先介绍一下我使用的工具和环境。

工具和环境

系统:ubuntu 16.4
语言: python 2.7
IDE: sublime text 3
浏览器: Chrome
爬虫框架:Scrapy 1.0.3

这篇文章主要介绍如何在 linux 系统下安装 scarpy, 如何编写一个简单的爬虫,以及如何处理登录豆瓣的问题。如果你有兴趣了解本文的爬虫代码,可以戳这里.

Read more »

支持向量机——间隔最大法

Posted on 2017-06-21 |

一般来说,机器学习方法由三个要素组成:模型、 策略、算法。

对于监督算法来说,其中:

  • 模型指的是所要学习的条件概率分布或决策函数;
  • 策略指的是学习模信的准测或标准,即将从假设空间 FF 中确定最优模型 ff 转化为具体最优化问题的策略;
  • 算法指的是学习模型的具体计算方法,通常为求解最优化模型的算法。

对于支持向量机(support vector machine, SVM)来说,它的基本模型是定义在特征空间(不是输入空间)上的间隔最大的线性分类器;学习策略是几何间隔最大化,将求解最优模型转化为求解一个凸二次规划问题;学习算法是求解凸二次规划问题的最优化算法,通常使用的是序列最小最优化算法(SMO).

Read more »

鼓捣一个好用的markdown编辑器

Posted on 2017-04-21 |

之前写算法文档一直用 word,但是 word + git 真是特别不方便使用, 所以打算用 markdown 来写。虽然博客文章都是用 markdown 写的,但计算机本地一直没有找到一个好用的 markdown 文本编辑器,今天总算让我鼓捣出来一个。我使用的编辑器是 notepad++,在此基础上增加了 markdown 的语法高亮,并安装了提供预览功能的插件。步骤如下:

Read more »

Ubuntu 16.04下配置R语言开发环境

Posted on 2017-03-04 |

最近在 Dell XPS 上装了 Ubuntu 16.04 单系统,需要配置 R 开发环境。具体配置方法以及相关问题的解决如下。

R语言的安装

在 Ubuntu 上的安装一般有两种方法:

直接到官网下载安装包(tar.gz),然后依次安装即可。
在网速可以的情况下,利用 apt-get 安装是一种更为方便的方式,命令如下:

1
$ sudo apt-get install r-base
Read more »

使用R进行文本处理

Posted on 2017-02-02 |

原文:Text Processing in R

概述

这篇教程复习了一些在 R 中进行文本处理所需要的一些基本概念和指令。R 语言并不是进行文本处理的唯一工具,也不一定是最好的方式。Python 实际上是用于文本处理的编程语言,它具有大量的内置函数可以很简单并且快速的进行操作,并且还具有大量成熟且功能全面的文本处理包,比如 NLTK 和 textblob . 基础的 shell 脚本也可以成数量级的提高处理极其大量文本语料集的速度,一个经典的参考可参见 Unix for Poets 。然而使用 R 语言进行文本处理还是有很好的理由的,也就是我们很方便地将 R 的分析结果应用于其他分析。我在这篇教程中主要使用了 stringr 包,安装很简单:

1
2
install.packages("stringr", dependencies = TRUE)
library(stringr)
Read more »

使用R搭建一个电影推荐引擎

Posted on 2017-01-17 |

原文:BUILDING A MOVIE RECOMMENDATION ENGINE WITH R

常见的机器学习课程(比如Udacity Course)建议的第一个小项目通常就是推荐引擎,因此我打算做一个电影的推荐引擎。在这篇文章中,我将尝试应用基于内容过滤方法及协同过滤方法来搭建一个基本的电影推荐引擎。

数据集

我所使用的数据集来自 MovieLens,数据可以从此处下载。为了使这个推荐引擎尽可能的简单,我使用了最小的数据集 (ml-latest-small.zip) ——来自于706个用户对8,570部电影的100,000个电影评分。

1
2
3
4
5
>str(movies)
'data.frame': 8570 obs. of 3 variables:
$ movieId: int 1 2 3 4 5 6 7 8 9 10 …
$ title : chr "Toy Story (1995)" "Jumanji (1995)" "Grumpier Old Men (1995)"…
$ genres : chr "Adventure|Animation|Children|Comedy|Fantasy"…
Read more »

地图矩形测距小工具

Posted on 2016-10-01 |

点击这里

用R语言中lpSolve包求解简单的电能与备用联合优化问题

Posted on 2016-08-12 |

最近在读《电力系统经济学原理》的系统安全与辅助服务部分,将112页例5-6求解一个小规模电力市场在不要求单独对备用供应进行报价情况下的电能与备用联合出清的问题,使用 R 语言中的 lpSolve 包做了一个简单的线性规划算例。

Read more »
12
ElenoreZH

ElenoreZH

Your smart gets you slow. Young blood gets you old.

12 posts
11 tags
GitHub Twitter Instagram LinkedIn
© 2017 ElenoreZH
Powered by Hexo
Theme - NexT.Pisces