2018-06-01から1ヶ月間の記事一覧

行列の固有値の話

まとまっている pdf を貼る 実対称行列についてのまとめも記載 http://www.cs.shinshu-u.ac.jp/~maruyama/lin/pdf/lin09.pdf dora.bk.tsukuba.ac.jp おまけ(線形代数のわかりやすいサイト) oguemon.com

Javaのパフォーマンス・チューニング

GC とか Full GC とか、いろいろ単語が出ていたので、調べた。 Java が 動作するための仮想環境 JVM のチューニングが必要らしい。 Javaパフォーマンスチューニングのルール (1/2):Javaパフォーマンスチューニング(1) - @IT www.infoq.com

Access-Control-Allow-Origin エラーについて

Web

Access-Control-Allow-Origin エラーはドメインの異なるリソースを表示しようとする際に起こるブラウザ側のエラー developer.mozilla.org

python と java について、vim の mode line を設定する

tab で 4 space 入れる方法。 #!/usr/bin/env python # -*- encoding:utf-8 -*- # vim:tabstop=4:shiftwidth=4:expandtab print('aaa') /* vim:set ts=4 sw=4 et ws is nowrap ft=java fenc=utf-8 ff=dos: */ class JSample13_1{ public static void main(St…

Javaのutf-8とかunicodeへのファイル変換

utf-8 => unicode にファイルをエンコードする。 $ cat JSample3_1.java class JSample3_1{ public static void main(String args[]){ System.out.println("こんにちは"); System.out.println("お元気ですか"); } } $ native2ascii -encoding UTF-8 JSample3…

Java参考サイト

www.javadrive.jp www.javacodegeeks.com www.javacodegeeks.com

FMとかFFMとかの論文

レコメンドエンジンで使えそうな論文。 FM https://www.csie.ntu.edu.tw/~b97053/paper/Rendle2010FM.pdf FFM https://www.andrew.cmu.edu/user/yongzhua/conferences/ffm.pdf 参考までに。FM の実装 github.com "SLIM: Sparse Linear Methods for Top-N Rec…

レコメンドシステムで、Explicit と Implicit とは(レコメンド例のSlide)

レビューとかでユーザが明示的に評価したら、Explicit。 PVとかCVとかのlogで評価を判断するのがImplicit。らしい。 There are two ways to gather the data. The first method is to ask for explicit ratings from a user, typically on a concrete rating…

cassandra を tarball でインストール

MySQLも同様だけど、yumではなく、tarballからもインストールできるので勉強として。 実行 ## cassandraがyum installされている場合 sudo yum remove cassandra ls /var/lib/cassandra/* rm -rf /var/lib/cassandra/* ## tarをインストール mkdir /usr/loca…

レコメンドで参考にしたサイト

dsnotes.com ebaytech.berlin netflix https://beta.vu.nl/nl/Images/werkstuk-fernandez_tcm235-874624.pdf 協調フィルタリング http://yifanhu.net/PUB/cf.pdf

クラスタリング : DBSCAN の実装

クラスタリングアルゴリズムの中で、クラスタが球状という前提を持たずに、 クラスタラベルを割り当てる。 from sklearn.datasets import make_moons X, y = make_moons( n_samples=200, noise=0.05, random_state=0 ) plt.scatter(X[:, 0 ], X[:, 1]) plt.t…

ボトムアップ式のクラスタリングのグループ化

データ作成 shape: (5, 3) のランダム行列を作成 import pandas as pd import numpy as np np.random.seed(123) variables = ['X', 'Y', 'Z'] labels = ['ID_0', 'ID_1', 'ID_2', 'ID_3', 'ID_4'] X = np.random.random_sample([5, 3])*10 ## pandas のデー…

MySQLの max にNULLが含まれても関係ないらしい

SQL

MySQL で maxを取得しようとしたさい、あれどんな挙動するんやろと迷った 気にすることなかった。 mysql> select (NULL < 1); +------------+ | (NULL < 1) | +------------+ | NULL | +------------+ 1 row in set (0.00 sec) mysql> select (NULL > 0); +-…

教師なしデータのクラスタ分析の検証

## クラスタリングのサンプルを作成 from sklearn.datasets import make_blobs X, y = make_blobs( n_samples=150, n_features=2, centers=3, cluster_std=0.5, shuffle=True, random_state=True ) ## クラスタリングを描画 plt.scatter(X[:, 0], X[:, 1], c…

機械学習の勉強コード+サイト

ここのコードを再利用することで、実装も簡単かも。 github.com Python Data Science Handbook | Python Data Science Handbook sebastianraschka.com https://sebastianraschka.com/pdf/books/dlb/appendix_d_calculus.pdf

アンサンブル分類器の実装

一般的に、アンサンブル分類器の方が、個別の分類器より性能が高い from sklearn import datasets from sklearn.model_selection import train_test_split from sklearn.preprocessing import ( StandardScaler, LabelEncoder, ) iris = datasets.load_iris(…

sklearn にて、適合率と再現率

以下の投稿で load したX_train, y_train,... を利用。 kidnohr.hatenadiary.com 適合率と再現率と F1 スコア 適合率(PRE)と再現率(REC)について、F1 スコアという性能指標が存在する。 PRE = TP / ( TP + FP ) REC = TP / ( TP + FN ) f1 = 2 * ( PRE *…

グリッドサーチを使ったチューニング

サポートベクトルマシンのパイプラインのトレーニング from sklearn.preprocessing import LabelEncoder from sklearn.preprocessing import StandardScaler from sklearn.pipeline import make_pipeline from sklearn.model_selection import GridSearchCV …

学習曲線と検証曲線を使って、バイアスとバリアンスを可視化

以下をまずは見て。 kidnohr.hatenadiary.com train_size を指定することで、学習曲線を描画 import matplotlib.pyplot as plt from sklearn.model_selection import learning_curve pipe_lr = make_pipeline(StandardScaler(), LogisticRegression(penalty=…

層化 k 分割交差検証の実装

以下のリンクの続き kidnohr.hatenadiary.com StratifiedKFold を使った場合。kfold からどのような組み合わせか確認できる import numpy as np from sklearn.model_selection import StratifiedKFold kfold = StratifiedKFold(n_splits=10, random_state=1)…

sklearnのpipelineの使い方

make_pipelineを通して、(入力)=>(変換器(複数))=>(推定器)=>(出力) のwrapperを利用できる。 変換器は fit & transform 推定器は fit import pandas as pd from sklearn.cross_validation import train_test_split from sklearn.preprocessing import Label…

Janusgraphを使った実装例

github.com

awkコマンドが$0が全てと知ったとき...

awkコマンドの基本

ランダムフォレストで特徴選択する方法

次元削減で特徴抽出する方法を本から抜粋 df_wine = pd.read_csv('http://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data', header=None) from sklearn.ensemble import RandomForestClassifier feat_labels = df_wine.columns[1:] fore…

Apache groovy を勉強するとき、参考にしたサイト

2. Apache Groovyとは - Apache Groovyチュートリアル Groovyよく使いそうなメソッド(List編) 例 (1..10).stream() .filter { // streamのfilter。Groovyで言うところのfindAll。 it % 2 == 0 }.map{ Integer hoge -> //streamのmap。Groovyで言うところの…