機械学習の計算対象が偏っているとき

機械学習 Python3

基本的には、upsampling か downsampling か。大体の母分布がわかっている場合は、平均分散を用いて、augmentation するのもあり。 www.kaggle.com A systematic study of the class imbalance problem in convolutional neural networks from Yuya Soneoka …

2019-07-03

pandas の移動平均とかの計算に便利

Python3 機械学習

# 移動平均。重み付けなし df.rolling(window=3).mean() # 未来永劫平均取る的な。 df.expanding(min_periods=3).mean() # 移動平均。重み付けあり。 df.ewm(com=0.5).mean() com : float, optional Specify decay in terms of center of mass, 𝛼=1/(1+𝑐𝑜𝑚),…

2019-07-02

文字列の数値を float 型に変換

Python3

str を数値に変換 Nan を無視できる。 df.num.convert_objects(convert_numeric=True) #=> 0 0 #=> 1 1 #=> 2 NaN #=> 3 3 blog.mwsoft.jp

2019-07-02

リーマン距離って

数学

リーマン距離って、正定値行列同士の距離を正確に測る手段なのか... 不明すぎる。 math.stackexchange.com https://hal.archives-ouvertes.fr/hal-01570120/document

2019-07-02

直和、直積を毎回わすれるので

数学

以下のサイトでいい感じにまとめていた。 http://chem.ru.dendai.ac.jp/Ruike/ru_i.ke/3_junior3/bunshi/lec_support/lecture_9.pdf

2019-06-28

pandas の apply を numpyで実行する場合

Python3

# axis = 0 の場合、arr をsumする。 np.apply_along_axis(sum, 0, arr) # np.vectorize とかも使える # one-hot --> label encoding y_val = np.argmax(y_val, axis=1) multiclass の xgboost 実装 from sklearn.multiclass import OneVsRestClassifier imp…

2019-06-27

run-length encoding の解凍・圧縮

Python3

これめちゃ便利 In order to reduce the submission file size, our metric uses run-length encoding on the pixel values. Instead of submitting an exhaustive list of indices for your segmentation, you will submit pairs of values that contain a …

2019-06-25

信号解析のフィルタリング

Python3

import scipy as sp print(sp.__version__) >>> 0.19.1 信号の作成 import numpy as np import matplotlib.pyplot as plt from scipy import signal N = 1024 # サンプル数 dt = 0.001 # サンプリング周期 [s] f1, f2, f3 = 10, 60, 300 # 周波数 [Hz] t = n…

2019-06-19

バックプロパゲーション計算は、分解したほうがわかりやすいかも

darden.hatenablog.com

2019-06-15

plt のメモリについて

Python3

tick で実際のメモリ、ticks_label で表示するメモリについて、制御する。 yticks = 2 ** np.arange(0, 5) plt.yticks(np.log2(yticks)) plt.yticklabels(yticks)

2019-06-14

np correlate について

Python3

conv と correlate は計算方向が逆になっただけで基本の考え方は一緒。 corr の基本の計算は、c'_{av}[k] = sum_n a[n] conj(v[n+k]) な感じ。 [1, 2, 3], [0, 1, 0.5] --> 0 padding [0, 0, 1, 2, 3, 0, 0] [0, 0, 0, 1, 0.5, 0, 0] valid: 0 padding しな…

2019-06-14

信号分析

Python3 機械学習

フーリエ変換の関数。便利。 from scipy.fftpack import fft def get_fft_values(y_values, T, N, f_s): f_values = np.linspace(0.0, 1.0/(2.0*T), N//2) fft_values_ = fft(y_values) fft_values = 2.0/N * np.abs(fft_values_[0:N//2]) return f_values, …

2019-06-12

画像前処理のtutorial

Python3

このサイトで進める。 likegeeks.com [https://docs.opencv.org/4.1.0/d7/d1b/groupimgprocmisc.html:embed:cite]

2019-06-12

PDF からの文字認識から使えそう

Python3

qiita.com

2019-06-10

テキスト分類のレポートライブラリについて

Python3 機械学習

よくわからないが、テキストデータの分類のしやすさについてレポートを出してくれる。 github.com gensim.models.KeyedVectors.load_word2vec_forma は、crawl-300d-2M.vec (fasttext) のEmbeded をロードしてくれる。 glove = '../../glove/glove.840B.300…

2019-06-10

pd.DataFrame の groupby の label の指定

Python3

groupby の by はリスト指定でラベリングするのもあり。 ppap = pd.DataFrame({'a': [1,3,1,4], 'b': [2,5,2,5]}) ppap['a'].groupby(ppap['b']).sum() b 2 2 5 7 Name: a, dtype: int64

2019-06-09

histgram のデータを取得する方法

Python3

import numpy as np count, division = np.histogram(series) stackoverflow.com ちなみに、shapiro の W は検定統計量らしい。Wikipediaより x = st.norm.rvs(loc=0, scale=1, size=1000) st.shapiro(x) ==> (0.9986046552658081, 0.6241769790649414)

2019-06-06

ls command であるはずのファイルが参照されない

Linux

$ ls /home/mnt ls: /home/mnt にアクセスできません: そのようなファイルやディレクトリはありませんこのあたりを確認すればいいのか。。 $ strace -tt ls /home/mnt ... 07:40:12.552870 ioctl(1, TCGETS, {B38400 opost isig icanon echo ...}) = 0 07:4…

2019-06-04

複数のgpu が接続されているときの環境変数の設定

Python3

nvidia-smi で複数のgpuが存在するとき import os os.environ["CUDA_VISIBLE_DEVICES"] = "1" from keras import backend as K K.tensorflow_backend._get_available_gpus() ['/device:GPU:0'] nvidia-smi

2019-05-28

re の [] について

Python3

以下のre.search では、 / と . 以外の文字列を検探し、group ( () ) の1番目について抽出している。 s = '../input/train.csv' re.search('/([^/\.]*)\.csv', s).group(1) # [^~] は ~以外の文字列

2019-05-25

pandas の nan の判定方法

Python3

a = Nan assert pd.isna(a)

2019-05-20

CNN の layer のイメージ（メモ）

機械学習 Python3

keras のクラス名に準拠 GlobalAveragePooling は各チャネルごとの平均値を軸 0として1次元に出力 AveragePooingとの違いから、Global は全特徴マップを一つに pooling するみたいな Flatten はただ、軸0 として1次元に並べる SeparableConv は、各チャネ…

2019-05-15

anaconda 設定するとbase がデフォルトで activate になった

conda

$ conda config --set auto_activate_base false stackoverflow.com

2019-05-06

VSCode で Python の import error を出さないようにしたい

Python3

設定から、Pythonのsettings.json を追加編集することで回避できる "python.linting.pylintArgs": [ "--max-line-length=80", "--disable=W0142,W0403,W0613,W0232,R0903,R0913,C0103,R0914,C0304,F0401,W0402,E1101,W0614,C0111,C0301" ] stackoverflow.com

2019-05-02

Mac (Homebrew) の Python3 を Python3.7 --> Python3.6 に変える話

Python3 Mac

brew の使い方もちょっと勉強になった brew info python3 # Python3.7をbrewの管理下から外す brew unlink python3 # 最新のPython3.6 をダウンロード (依存関係は無視) brew install --ignore-dependencies https://raw.githubusercontent.com/Homebrew/hom…

2019-04-19

keras の history plot と移動平均

Python3 深層学習

history plot acc = history.history['acc'] val_acc = history.history['val_acc'] loss = history.history['loss'] val_loss = history.history['val_loss'] epochs = range(1, len(acc) + 1) plt.plot(epochs, acc, 'bo', label='Training acc') plt.plot…

2019-04-18

statsmodels で季節性のトレンドを見る

Python3

import warnings import itertools import numpy as np import matplotlib.pyplot as plt warnings.filterwarnings("ignore") plt.style.use('fivethirtyeight') import pandas as pd import statsmodels.api as sm import matplotlib matplotlib.rcParams['…

2019-04-18

dig コマンドの詳細

Linux

dig コマンドについて、nslookup の代替ぐらいに考えていたけど、詳細を調べてみた。 japanrock-pg.hatenablog.com

2019-04-17

statsmodels の summary の t について

Python3 統計学

どうやら、tは標本分布を t分布と仮定した際の coef=0 の T の値っぽい。 t が 0から遠ければ遠いほど、coef が 0でない確率が高い。要は相関がある。 from patsy import dmatrices import statsmodels.api as sm df = sm.datasets.get_rdataset("Guerry", …

2019-04-14

バイナリ分類器の訓練と検証

機械学習 Python3

ロジスティック回帰とXGB分類器のホールドアウト from sklearn.linear_model import LogisticRegression from sklearn.tree import DecisionTreeClassifier from sklearn.neighbors import KNeighborsClassifier from sklearn.neural_network import MLPClas…

日に日に分からんことが増えていく…

φ(..)メモメモ

2019-01-01から1年間の記事一覧

機械学習の計算対象が偏っているとき

pandas の移動平均とかの計算に便利

文字列の数値を float 型に変換

リーマン距離って

直和、直積を毎回わすれるので

pandas の apply を numpyで実行する場合

run-length encoding の解凍・圧縮

信号解析のフィルタリング

バックプロパゲーション計算は、分解したほうがわかりやすいかも

plt のメモリについて

np correlate について

信号分析

画像前処理のtutorial

PDF からの文字認識から使えそう

テキスト分類のレポートライブラリについて

pd.DataFrame の groupby の label の指定

histgram のデータを取得する方法

ls command であるはずのファイルが参照されない

複数のgpu が接続されているときの環境変数の設定

re の [] について

pandas の nan の判定方法

CNN の layer のイメージ（メモ）

anaconda 設定するとbase がデフォルトで activate になった

VSCode で Python の import error を出さないようにしたい

Mac (Homebrew) の Python3 を Python3.7 --> Python3.6 に変える話

keras の history plot と移動平均

statsmodels で季節性のトレンドを見る

dig コマンドの詳細

statsmodels の summary の t について

バイナリ分類器の訓練と検証