ordinary data のクラスタリング

機械学習

stats.stackexchange.com

2020-02-12

離散データのクラスタリングについて

機械学習

datascience.stackexchange.com towardsdatascience.com www.kaggle.com

2020-02-04

Transformer の pytorch での実装してるサイトのメモ

機械学習 Python3

nlp.seas.harvard.edu Label scaling と temperature scaling があり、予測結果のoverconfidence を抑制する。 codecrafthouse.jp .unsqueeze(1) は縦長。scatter_で one-hot的に、置換している。 # true_dist.shape == (n, d) # target.shape == (n, ) true…

2019-12-11

PCAの逆変換

機械学習

PCA の inverse_transform は、component_ が直交行列的なため、以下の変換ができる。 w = X c --> w cT= x alexhwilliams.info

2019-10-30

機械学習のモデルの比較について

機械学習統計学

精度の標本平均の差と、McMemar検定をすることで効果測定できそう。 machinelearningmastery.com hs-www.hyogo-dai.ac.jp

2019-10-28

seaborn : barplot の xticks の調整が難しかった

機械学習 Python3

seaborn の barplot を使っている時、1990~2020 年までのデータに不足があったので、間がとびとびのbarplotになっていた。 xticks(np.arange(1990, 2020)) とかで調整しようとすると、barが消えたりする。不足分を補うことで、対応した。やむなし。idnex は…

2019-10-23

特徴量の自動選択

機械学習

xgboost の特徴量選択について、total_gain で特徴量の重要度を抽出。 programmer.ink datanerd.hateblo.jp

2019-09-18

時系列の特徴量に三角関数が有効

機械学習 Python3

sin などを使うことで、周期性を特徴量に入れれるらしい。 tbnsilveira.info isadoranun.github.io pandas.pydata.org

2019-09-13

国際カンファレンス(ML)

深層学習機械学習

行かなくても論文追ってみたい。 NIPS nips.cc ICML icml.cc

2019-09-07

分類機を loss=BCE で予測するとき

機械学習 Python3

0, 1 の分類器について、BCE で loss を計算すると、未来の確率の最尤は予測値となる。 def likelifood(x, n, n_1): return (x**(n_1)) * ((1- x) ** (n - n_1)) N = 100 N_1 = 80 x_list = [] for i in np.arange(0, 1.01, 0.01): xx = likelifood(i, N, N_…

2019-08-05

異常検知の実装 tips

Python3 機械学習

以下を見て、方法をまとめたい。明日移行。 scikit-learn.org https://fisproject.jp/2019/03/deep-learning-for-anomaly-detection-1/ deeplearning4j.org contamination: ノイズの割合を指定できるので、訓練データにノイズが有る場合は指定する。OneClass…

2019-08-01

情報検索について

機械学習

なんか FST辞書とか言うのがあるらしい。。Lucene ちゃんと見てみないと。 developer.hatenastaff.com あと、自然言語処理についてのよさげなスライドシェア。大規模データ時代に求められる自然言語処理 from Preferred Networks www.slideshare.net

2019-07-29

Regression の p-value と R2 score について

Python3 機械学習

p-value は、説明変数の係数が0である帰無仮説が棄却されるかどうか検定するもの。なので、 - p-value が 0.05 (alpha) 以下の場合は、重要な特徴 - R2 score は、回帰モデル自体がデータをどれくらい性格に予測できているかを示す指標 blog.minitab.com

2019-07-25

cohen_kappa_score について

Python3 機械学習

以下のサイトが分かりやすい。他クラスのスコアのとり方で使用できる。順序ごとに target label が貼られている場合、target をより ground truth より遠く推論したものにペナルティが加わる。 from sklearn.metrics import cohen_kappa_score from sklearn…

2019-07-24

Yolo v3 での物体検出

Python3 深層学習機械学習

Yolo v3 での物体検出を Pytorch で実装している。Kaggle 等で使えそう。 github.com pjreddie.com

2019-07-24

Pytorch のコールバック関数

Python3 深層学習機械学習

pytorch のcallback が実装されている。 pytorch.org 2年前の更新で止まっているが、便利。 github.com

2019-07-18

機械学習・深層学習便利サイト

機械学習深層学習

めちゃくちゃまとまっている。分かりやすい github.com

2019-07-09

matplotlib の日本語変更

Python3 機械学習

以下のコマンドでフォントがあれば、入れてみる。 print([f.name for f in matplotlib.font_manager.fontManager.ttflist]) 例えば from matplotlib import rcParams rcParams['font.family'] = 'IPAPGothic'

2019-07-08

機械学習の計算対象が偏っているとき

機械学習 Python3

基本的には、upsampling か downsampling か。大体の母分布がわかっている場合は、平均分散を用いて、augmentation するのもあり。 www.kaggle.com A systematic study of the class imbalance problem in convolutional neural networks from Yuya Soneoka …

2019-07-03

pandas の移動平均とかの計算に便利

Python3 機械学習

# 移動平均。重み付けなし df.rolling(window=3).mean() # 未来永劫平均取る的な。 df.expanding(min_periods=3).mean() # 移動平均。重み付けあり。 df.ewm(com=0.5).mean() com : float, optional Specify decay in terms of center of mass, 𝛼=1/(1+𝑐𝑜𝑚),…

2019-06-14

信号分析

Python3 機械学習

フーリエ変換の関数。便利。 from scipy.fftpack import fft def get_fft_values(y_values, T, N, f_s): f_values = np.linspace(0.0, 1.0/(2.0*T), N//2) fft_values_ = fft(y_values) fft_values = 2.0/N * np.abs(fft_values_[0:N//2]) return f_values, …

2019-06-10

テキスト分類のレポートライブラリについて

Python3 機械学習

よくわからないが、テキストデータの分類のしやすさについてレポートを出してくれる。 github.com gensim.models.KeyedVectors.load_word2vec_forma は、crawl-300d-2M.vec (fasttext) のEmbeded をロードしてくれる。 glove = '../../glove/glove.840B.300…

2019-05-20

CNN の layer のイメージ（メモ）

機械学習 Python3

keras のクラス名に準拠 GlobalAveragePooling は各チャネルごとの平均値を軸 0として1次元に出力 AveragePooingとの違いから、Global は全特徴マップを一つに pooling するみたいな Flatten はただ、軸0 として1次元に並べる SeparableConv は、各チャネ…

2019-04-14

バイナリ分類器の訓練と検証

機械学習 Python3

ロジスティック回帰とXGB分類器のホールドアウト from sklearn.linear_model import LogisticRegression from sklearn.tree import DecisionTreeClassifier from sklearn.neighbors import KNeighborsClassifier from sklearn.neural_network import MLPClas…

2019-04-03

stacking 分類用

機械学習 Python3

# 複数のモデルの計算結果の傾向より、分類を予測するメタモデル from sklearn.base import BaseEstimator, TransformerMixin, ClassifierMixin, clone from sklearn.model_selection import StratifiedKFold class StackingAveragedModels(BaseEstimator, C…

2019-02-12

pandas の Time Series の分析

Python3 機械学習

towardsdatascience.com pandas.pydata.org stackoverflow.com statsmodel の分析も結構使えそう www.statsmodels.org

2019-02-08

tffm レコメンド性能高そう

Python3 機械学習

github.com $ pip install tffm order とかよく挙動がわからない。パラメータがあるけど。この辺、レコメンドエンジンに使えそう。 from sklearn.model_selection import train_test_split X_tr, X_te, y_tr, y_te = train_test_split(df.values, df['tfidf…

2019-01-09

LSTM を書いてみた

Python3 機械学習

出典元）Python 機械学習プログラミング https://www.amazon.co.jp/dp/4295003379/ tar 解凍 import tarfile with tarfile.open('aclImdb_v1.tar.gz', 'r:gz') as tar: tar.extractall() ai.stanford.edu データ作成 import pandas as pd import os base_pat…

2019-01-04

データ分析の流れ

機械学習 Python3

準備 Prepare Problem a) Load libraries b) Load dataset Summarize Data a) Descriptive statistics b) Data visualizations Prepare Data a) Data Cleaning b) Feature Selection c) Data Transforms (Normalize,...) direcotory構成 echo '.DS_Store .ip…

2019-01-02

Kaggle の過去問と解法集

機械学習

Kaggle Past Competitions www.chioka.in github.com machinelearningmastery.com

日に日に分からんことが増えていく…

φ(..)メモメモ

機械学習

ordinary data のクラスタリング

離散データのクラスタリングについて

Transformer の pytorch での実装してるサイトのメモ

PCAの逆変換

機械学習のモデルの比較について

seaborn : barplot の xticks の調整が難しかった

特徴量の自動選択

時系列の特徴量に三角関数が有効

国際カンファレンス(ML)

分類機を loss=BCE で予測するとき

異常検知の実装 tips

情報検索について

Regression の p-value と R2 score について

cohen_kappa_score について

Yolo v3 での物体検出

Pytorch のコールバック関数

機械学習・深層学習便利サイト

matplotlib の日本語変更

機械学習の計算対象が偏っているとき

pandas の移動平均とかの計算に便利

信号分析

テキスト分類のレポートライブラリについて

CNN の layer のイメージ（メモ）

バイナリ分類器の訓練と検証

stacking 分類用

pandas の Time Series の分析

tffm レコメンド性能高そう

LSTM を書いてみた

データ分析の流れ

Kaggle の過去問と解法集