レコメンドで参考にしたサイト

dsnotes.com http://yifanhu.net/PUB/cf.pdf

クラスタリング : DBSCAN の実装

クラスタリングアルゴリズムの中で、クラスタが球状という前提を持たずに、 クラスタラベルを割り当てる。 from sklearn.datasets import make_moons X, y = make_moons( n_samples=200, noise=0.05, random_state=0 ) plt.scatter(X[:, 0 ], X[:, 1]) plt.t…

ボトムアップ式のクラスタリングのグループ化

データ作成 shape: (5, 3) のランダム行列を作成 import pandas as pd import numpy as np np.random.seed(123) variables = ['X', 'Y', 'Z'] labels = ['ID_0', 'ID_1', 'ID_2', 'ID_3', 'ID_4'] X = np.random.random_sample([5, 3])*10 ## pandas のデー…

MySQLの max にNULLが含まれても関係ないらしい

SQL

MySQL で maxを取得しようとしたさい、あれどんな挙動するんやろと迷った 気にすることなかった。 mysql> select (NULL < 1); +------------+ | (NULL < 1) | +------------+ | NULL | +------------+ 1 row in set (0.00 sec) mysql> select (NULL > 0); +-…

教師なしデータのクラスタ分析の検証

## クラスタリングのサンプルを作成 from sklearn.datasets import make_blobs X, y = make_blobs( n_samples=150, n_features=2, centers=3, cluster_std=0.5, shuffle=True, random_state=True ) ## クラスタリングを描画 plt.scatter(X[:, 0], X[:, 1], c…

機械学習の勉強コード

ここのコードを再利用することで、実装も簡単かも。 github.com Python Data Science Handbook | Python Data Science Handbook

アンサンブル分類器の実装

一般的に、アンサンブル分類器の方が、個別の分類器より性能が高い from sklearn import datasets from sklearn.model_selection import train_test_split from sklearn.preprocessing import ( StandardScaler, LabelEncoder, ) iris = datasets.load_iris(…

sklearn にて、適合率と再現率

以下の投稿で load したX_train, y_train,... を利用。 kidnohr.hatenadiary.com 適合率と再現率と F1 スコア 適合率(PRE)と再現率(REC)について、F1 スコアという性能指標が存在する。 PRE = TP / ( TP + FP ) REC = TP / ( TP + FN ) f1 = 2 * ( PRE *…

グリッドサーチを使ったチューニング

サポートベクトルマシンのパイプラインのトレーニング from sklearn.preprocessing import LabelEncoder from sklearn.preprocessing import StandardScaler from sklearn.pipeline import make_pipeline from sklearn.model_selection import GridSearchCV …

学習曲線と検証曲線を使って、バイアスとバリアンスを可視化

以下をまずは見て。 kidnohr.hatenadiary.com train_size を指定することで、学習曲線を描画 import matplotlib.pyplot as plt from sklearn.model_selection import learning_curve pipe_lr = make_pipeline(StandardScaler(), LogisticRegression(penalty=…

層化 k 分割交差検証の実装

以下のリンクの続き kidnohr.hatenadiary.com StratifiedKFold を使った場合。kfold からどのような組み合わせか確認できる import numpy as np from sklearn.model_selection import StratifiedKFold kfold = StratifiedKFold(n_splits=10, random_state=1)…

sklearnのpipelineの使い方

make_pipelineを通して、(入力)=>(変換器(複数))=>(推定器)=>(出力) のwrapperを利用できる。 変換器は fit & transform 推定器は fit import pandas as pd from sklearn.cross_validation import train_test_split from sklearn.preprocessing import Label…

Janusgraphを使った実装例

github.com

awkコマンドが$0が全てと知ったとき...

awkコマンドの基本

ランダムフォレストで特徴選択する方法

次元削減で特徴抽出する方法を本から抜粋 df_wine = pd.read_csv('http://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data', header=None) from sklearn.ensemble import RandomForestClassifier feat_labels = df_wine.columns[1:] fore…

Apache groovy を勉強するとき、参考にしたサイト

2. Apache Groovyとは - Apache Groovyチュートリアル Groovyよく使いそうなメソッド(List編) 例 (1..10).stream() .filter { // streamのfilter。Groovyで言うところのfindAll。 it % 2 == 0 }.map{ Integer hoge -> //streamのmap。Groovyで言うところの…

$! は最後に実行したバックグラウンドプロセスID

$1, $2, $3, ... are the positional parameters. "$@" is an array-like construct of all positional parameters, {$1, $2, $3 ...}. "$*" is the IFS expansion of all positional parameters, $1 $2 $3 .... $# is the number of positional parameters.…

GremlinでSample作成

TinkerPop3 Documentation graph = TinkerGraph.open() marko = graph.addVertex(T.label, "person", T.id, 1, "name", "marko", "age", 29) vadas = graph.addVertex(T.label, "person", T.id, 2, "name", "vadas", "age", 27) lop = graph.addVertex(T.lab…

二次元の分類結果を plot

機械学習の結果、2 個の特徴の座標と分類結果をわかりやすく図で出力している import numpy as np import matplotlib.pyplot as plt from matplotlib.colors import ListedColormap def plot_dicision_regions(X, y, classifier, test_idx=None, resolusions…

.tgz のファイルを開いて読み取る方法

tarfile はZipとは違うアプローチが必要 import tarfile workpath = '/tmp/test.tgz' filename = 'test1.tsv' with tarfile.open(workpath) as tfile: if filename not in tfile.getnames(): raise Exception('No such file %s' % filename) with tfile.extr…

テンソルの勉強について

以下のサイトで、テンソル積やその他諸々の解説をしてた。 http://www.mm.civil.tohoku.ac.jp/renzokutai/0_suugaku.pdf

curl でファイルから --data-urlencodeを指定

通常の場合は、ファイルから値を指定するときは以下 ## http://example.com?name=[test.txtの中身] curl http://example.com --data-urlencode name@filename < test.txt 標準入力から入力するときは、以下を使う ## 標準入力での -(ハイフン) の使い方 $ …

CentOS6 に cassandra を yum install する方法

centos6だと、yum install datastax での install をする必要があった $ java -version java version "1.8.0_25" Java(TM) SE Runtime Environment (build 1.8.0_25-b17) Java HotSpot(TM) 64-Bit Server VM (build 25.25-b02, mixed mode) # vi /etc/yum.re…

janusgraph+cassandra で graph database を構築

Cassandra の yum install /etc/yum.repos.d/cassandra.repo [cassandra] name=Apache Cassandra baseurl=https://www.apache.org/dist/cassandra/redhat/311x/ gpgcheck=1 repo_gpgcheck=1 gpgkey=https://www.apache.org/dist/cassandra/KEYS yum -y insta…

Python での S3 からファイル取得(boto3)

boto3というモジュールが存在して、それを使ってS3 のファイルが取得できる。 ファイルのキー取得 In [1]: import boto3 In [7]: import botocore In [21]: s3 = boto3.resource('s3', aws_access_key_id=S3_ACCESS_KEY, aws_secret_access_key=S3_SECRET_KE…

Sparkの...Typeってどれが対応しているのか調べた

private static DataType parseDataType(Config fieldsConfig) { String type = fieldsConfig.getString(FIELD_TYPE_CONFIG); switch (type) { case "string": return DataTypes.StringType; case "byte": return DataTypes.ByteType; case "short": return …

LDA(Latent Dirichlet Allocation) でのトピック抽出

以下の形式のsample.csvからデータを取得し、sklean の LDA でトピック抽出する。 id text 1 今日は晴れ。明日は雨 2 今日はカープが優勝した。 ... ... text2topic.py #!/usr/bin/env python # coding:utf-8 from __future__ import print_function from ti…

SolrのTermVectorsComponentでキーワード抽出してみる

tfidfを用いてなにかできないかと模索。 結果、検索で引っかかつキーワードが出てきただけ。。 The Term Vector Component | Apache Solr Reference Guide 7.1 #!/usr/bin/env python # coding:utf-8 import requests import json from heapq import heappus…

統計学の勉強するのに便利そう

to-kei.net

AWS にて、 dockerの立ち上げがうまく行かなかった

AWSにて、「データ分析基盤構築入門」を見て、立ち上げたけどエラーが出た。。 https://www.amazon.co.jp/dp/B075RTZ141 $ git clone https://github.com/efkbook/blog-sample $ cd blog-sample/ $ docker-compose up -d Building go Step 1/5 : FROM golang…