silhouette_samples が Memory Errorになったときの対応

Python3

from sklearn.metrics import silhouette_samples silhouette_samples で、Memory Error にならない関数を作ってくれている。 stackoverflow.com

2018-08-02

matplotlibについて

Python3

matplotlib について、一回tutorial やったほうが良いかも Tutorials — Matplotlib 2.2.2 documentation

2018-07-23

matplotまとめてあったので、引用

Python3

python-remrin.hatenadiary.jp

2018-07-18

Django の models に対応したテーブルを MySQL から grep する方法

Python3 Django MySQL

以下のコマンドで、取り出す。 mysql -uroot -N information_schema -e "select table_name from tables where table_schema = 'tablename' and table_name like 'prefix_%'" > table.txt

2018-07-11

tf の mnist をニューラルネットワークで分析

機械学習 Python3

正解率が90%と低めに出た。。原因は今度調べよう import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data mnist = input_data.read_data_sets("MNIST_data/", one_hot=True) mnist.train.images.shape => (55000, 784) n_feat…

2018-07-05

word2vecすごいぞ

機械学習 Python3

結構すごい。。表記ゆれとかも吸収できそう。 from gensim.models import word2vec ls = [] for row in df_id['review_comment'].values[:100000]: ls.append(_split_to_rawwords(row)) model = word2vec.Word2Vec(ls, size=500, window=5, min_count=5, wor…

2018-07-05

LDA（Latent Dirichlet Allocation）でのトピック抽出でレビュー分析

機械学習 Python3

レビューの分析方法をまとめる。 import os import glob import sys from datetime import (datetime, date, timedelta) import logging import re import shutil import tempfile import pandas as pd import numpy as np from scipy.sparse.csc import csc…

2018-07-04

pythonのscipyでsparseな行列の変換

Python3

sparseな行列についての実装 import numpy as np from scipy.sparse import coo_matrix ) a = np.arange(30).reshape(10,3) print(a) [[ 0 1 2] [ 3 4 5] [ 6 7 8] [ 9 10 11] [12 13 14] [15 16 17] [18 19 20] [21 22 23] [24 25 26] [27 28 29]] b, c, d …

2018-07-04

GCPでのレコメンド実装について

機械学習 Python3

Building a Recommendation System in TensorFlow: Overview | Solutions | Google Cloud

2018-07-04

pandasを使うときに利用したサイト

Python3

applyとかassignとかpipeとかapplymapとか。numpyで対応していたところもあって知らなかった。 qiita.com stackoverflow.com stackoverflow.com

2018-06-26

python と java について、vim の mode line を設定する

vim Python3 java

tab で 4 space 入れる方法。 #!/usr/bin/env python # -*- encoding:utf-8 -*- # vim:tabstop=4:shiftwidth=4:expandtab print('aaa') /* vim:set ts=4 sw=4 et ws is nowrap ft=java fenc=utf-8 ff=dos: */ class JSample13_1{ public static void main(St…

2018-06-14

クラスタリング : DBSCAN の実装

機械学習 Python3

クラスタリングアルゴリズムの中で、クラスタが球状という前提を持たずに、クラスタラベルを割り当てる。 from sklearn.datasets import make_moons X, y = make_moons( n_samples=200, noise=0.05, random_state=0 ) plt.scatter(X[:, 0 ], X[:, 1]) plt.t…

2018-06-14

ボトムアップ式のクラスタリングのグループ化

機械学習 Python3

データ作成 shape: (5, 3) のランダム行列を作成 import pandas as pd import numpy as np np.random.seed(123) variables = ['X', 'Y', 'Z'] labels = ['ID_0', 'ID_1', 'ID_2', 'ID_3', 'ID_4'] X = np.random.random_sample([5, 3])*10 ## pandas のデー…

2018-06-13

教師なしデータのクラスタ分析の検証

機械学習 Python3

## クラスタリングのサンプルを作成 from sklearn.datasets import make_blobs X, y = make_blobs( n_samples=150, n_features=2, centers=3, cluster_std=0.5, shuffle=True, random_state=True ) ## クラスタリングを描画 plt.scatter(X[:, 0], X[:, 1], c…

2018-06-09

アンサンブル分類器の実装

機械学習 Python3

一般的に、アンサンブル分類器の方が、個別の分類器より性能が高い from sklearn import datasets from sklearn.model_selection import train_test_split from sklearn.preprocessing import ( StandardScaler, LabelEncoder, ) iris = datasets.load_iris(…

2018-06-09

sklearn にて、適合率と再現率

Python3 機械学習

以下の投稿で load したX_train, y_train,... を利用。 kidnohr.hatenadiary.com 適合率と再現率と F1 スコア適合率（PRE）と再現率（REC）について、F1 スコアという性能指標が存在する。 PRE = TP / ( TP + FP ) REC = TP / ( TP + FN ) f1 = 2 * ( PRE *…

2018-06-08

グリッドサーチを使ったチューニング

機械学習 Python3

サポートベクトルマシンのパイプラインのトレーニング from sklearn.preprocessing import LabelEncoder from sklearn.preprocessing import StandardScaler from sklearn.pipeline import make_pipeline from sklearn.model_selection import GridSearchCV …

2018-06-06

sklearnのpipelineの使い方

Python3 機械学習

make_pipelineを通して、(入力)=>(変換器(複数))=>(推定器)=>(出力) のwrapperを利用できる。変換器は fit & transform 推定器は fit import pandas as pd from sklearn.cross_validation import train_test_split from sklearn.preprocessing import Label…

2018-06-05

ランダムフォレストで特徴選択する方法

機械学習 Python3

次元削減で特徴抽出する方法を本から抜粋 df_wine = pd.read_csv('http://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data', header=None) from sklearn.ensemble import RandomForestClassifier feat_labels = df_wine.columns[1:] fore…

2018-05-31

二次元の分類結果を plot

機械学習 Python3

機械学習の結果、2 個の特徴の座標と分類結果をわかりやすく図で出力している import numpy as np import matplotlib.pyplot as plt from matplotlib.colors import ListedColormap def plot_dicision_regions(X, y, classifier, test_idx=None, resolusions…

2018-05-29

.tgz のファイルを開いて読み取る方法

Python3

tarfile はZipとは違うアプローチが必要 import tarfile workpath = '/tmp/test.tgz' filename = 'test1.tsv' with tarfile.open(workpath) as tfile: if filename not in tfile.getnames(): raise Exception('No such file %s' % filename) with tfile.extr…

2018-04-26

LDA（Latent Dirichlet Allocation）でのトピック抽出

Python3 機械学習

以下の形式のsample.csvからデータを取得し、sklean の LDA でトピック抽出する。 id text 1 今日は晴れ。明日は雨 2 今日はカープが優勝した。 ... ... text2topic.py #!/usr/bin/env python # coding:utf-8 from __future__ import print_function from ti…

2018-04-25

SolrのTermVectorsComponentでキーワード抽出してみる

Solr Python3

tfidfを用いてなにかできないかと模索。結果、検索で引っかかつキーワードが出てきただけ。。 The Term Vector Component | Apache Solr Reference Guide 7.1 #!/usr/bin/env python # coding:utf-8 import requests import json from heapq import heappus…

2018-04-11

djangoのtest（django-nose, coverage）を使用する時

Python3 Django

djangoでtestをするとき、django-nose、coverageが使える。 $ pip install nose $ pip install django-nose $ pip install coverage settigns.py INSTALLED_APPS += ['django_nose', ] TEST_RUNNER = 'django_nose.NoseTestSuiteRunner' NOSE_ARGS = [ '--wi…

2018-04-11

1億行のファイルを読み込む方法

Python3

ファイルを書き出す manyrowstsv.py #!/usr/bin/env python # coding:utf-8 import signal import sys import os import glob import logging import logging.handlers import shutil import tempfile import random import datetime import string import c…

2018-04-08

最大流について

Python3

問題 s => t に最大量のデータを流す場合、最大どれだけのデータを送信できるか。 class MaxTraffic(object): def __init__(self, N=5): self.N = N self.edge = [[] for i in range(N)] self.used = [0 for i in range(N)] self.inf = 10 ** 9 def append(s…

2018-04-03

最小値の最大化（二分探索）と、反転操作回数の最小化

Python3

面白い問題があったのでPythonで記載。問題 1 N個の牛小屋について、M頭の牛を買っている。 x・・・牛小屋の位置最も近い牛の間隔を最大化するためにどうするか解法最小・最大化問題について、収束判定するために二分探索が用いられるらしい --> 総当た…

2018-03-28

Numpyのnewaxisの説明で分かりやすいのがあった

Python3

stackoverflow.com

2018-03-28

レーベンシュタイン距離をいい感じにまとめているサイトがあった

Python3 Python2

いまさら編集距離 (Levenshtein Distance) を実装するぜ | takuti.me

2018-03-27

最小全域木問題について（プリム法）

Python3

class MinimumSpanningTree(object): def __init__(self, v): self.v = v self.e = 0 self.mincost = [float("inf") for i in range(v)] self.cost = [[float("inf") for i in range(v)] for i in range(v)] self.used = [0 for i in range(v)] def append(s…

日に日に分からんことが増えていく…

φ(..)メモメモ

Python3

silhouette_samples が Memory Errorになったときの対応

matplotlibについて

matplotまとめてあったので、引用

Django の models に対応したテーブルを MySQL から grep する方法

tf の mnist をニューラルネットワークで分析

word2vecすごいぞ

LDA（Latent Dirichlet Allocation）でのトピック抽出でレビュー分析

pythonのscipyでsparseな行列の変換

GCPでのレコメンド実装について

pandasを使うときに利用したサイト

python と java について、vim の mode line を設定する

クラスタリング : DBSCAN の実装

ボトムアップ式のクラスタリングのグループ化

教師なしデータのクラスタ分析の検証

アンサンブル分類器の実装

sklearn にて、適合率と再現率

グリッドサーチを使ったチューニング

sklearnのpipelineの使い方

ランダムフォレストで特徴選択する方法

二次元の分類結果を plot

.tgz のファイルを開いて読み取る方法

LDA（Latent Dirichlet Allocation）でのトピック抽出

SolrのTermVectorsComponentでキーワード抽出してみる

djangoのtest（django-nose, coverage）を使用する時

1億行のファイルを読み込む方法

最大流について

最小値の最大化（二分探索）と、反転操作回数の最小化

Numpyのnewaxisの説明で分かりやすいのがあった

レーベンシュタイン距離をいい感じにまとめているサイトがあった

最小全域木問題について（プリム法）