streamitでmachine translationのdemo

以下(model_streamit.py)を作成し、 from transformers import M2M100ForConditionalGeneration, M2M100Tokenizer import streamlit as st @st.cache(allow_output_mutation=True) def load_model_tokenizer(): model = M2M100ForConditionalGeneration.from…

pythonの最初の環境構築メモ

conda init zsh sh -c "$(curl -fsSL https://raw.github.com/ohmyzsh/ohmyzsh/master/tools/install.sh)" # conda create (GUIで操作しても良い) conda create --name [環境名] python=3.7 --prefix=[prefix] -y conda activate [環境名] jupyter kernelspe…

git の subdirectoryをlocalにinstallする方法

stackoverflow.com pytorch の referenceをinstallする方法を探してたら、これが便利そう $ svn ls https://github.com/pytorch/vision.git/trunk/references/detection README.md coco_eval.py coco_utils.py engine.py group_by_aspect_ratio.py train.py …

deep learning を mobileで実装するときのリンク集

エッジやmobileでdeep を使用するときに参考にするサイト。 github.com hub.packtpub.com www.mobindustry.net https://heartbeat.fritz.ai/intro-to-machine-learning-on-android-how-to-convert-a-custom-model-to-tensorflow-lite-e07d2d9d50e3 https://h…

google colab で動画が再生できなかった。

import base64 import io def play(file_path): video = io.open(file_path, 'r+b').read() encoded = base64.b64encode(video) return(HTML(data='''<video width="320" height="240" controls><source src="data:video/mp4;base64,{0}" type="video/mp4" /></video>'''.format(encoded.decode('ascii')))) walkingmask.ha…

gptのマウント

wiki.archlinux.jp www.codeflow.site

ordinary data のクラスタリング

stats.stackexchange.com

離散データのクラスタリングについて

datascience.stackexchange.com towardsdatascience.com www.kaggle.com

Pytorch で RGB2GBR を実施

transpose は numpy の func なので、permute を使用する。 qiita.com

PyAVのインストールで詰まった

Ubuntu 16.04を使っていたことで、色々面倒だった。ffmpeg が 3.0以上必要。 blog.programster.org kazuhira-r.hatenablog.com github.com

Transformer の pytorch での実装してるサイトのメモ

nlp.seas.harvard.edu Label scaling と temperature scaling があり、予測結果のoverconfidence を抑制する。 codecrafthouse.jp .unsqueeze(1) は縦長。scatter_で one-hot的に、置換している。 # true_dist.shape == (n, d) # target.shape == (n, ) true…

多重代入法

多重代入法のPDF https://www.ism.ac.jp/~noma/Noma2017JJAS.pdf statsmodels で実装できるっぽい。

The Two-Stage Least Squares Estimation(二段階最小二乗法)

操作変数法のアプローチの一つとして、二段階最小二乗法が存在している。これは、操作変数法の推定量の計算方法を代替することで、予測精度を上げることを期待している。 ↓ PDF http://www3.grips.ac.jp/~yamanota/Lecture%20Note%208%20to%2010%202SLS%20&%…

PCAの逆変換

PCA の inverse_transform は、component_ が直交行列的なため、以下の変換ができる。 w = X c --> w cT= x alexhwilliams.info

category encoding について

category encoding をsklearn の BaseEstimator, TransformerMixin を利用して、作成されている。 binary encoding bit 表現で one-hot encoding的な表現を作る。カラムの順序は value order でいい感じに調整できる。 BaseNEncoding bit 表現(2進数)ではな…

rle_encode の +2については、 pixel は 1 から、採番していくため、+1 0番目と1番目の差異を index=0とするため、実際のmask は +1 def rle_encode(mask): """ Ref. https://www.kaggle.com/paulorzp/run-length-encode-and-decode """ pixels = mask.flatt…

plt.hist と sns.distplot の normed パラメータについて

plt.hist の normed=True は 出現確率を表現するものではなく、面積的ななにかをnormize する方法っぽい。 sns.distplot も同様。 jb102.blogspot.com

リモートのbranchの削除方法

Git

origin(remote名) の develop を消す場合。 $ git push origin --delete develop stackoverflow.com

CTCのbeam search を読む

Pb(b, t)+=Ptot(b, t-1)·mat(blank, t) の mat は最初に与えられた時系列のchar matrix のこと。 b: それまでappendされた文字列 のことっぽい。beamと書いてあるけど。 条件に従って、漸化式を計算していくと解けそう。 towardsdatascience.com

matplot の色をラベルで固定する方法

色の確認 import matplotlib as mpl import matplotlib.pyplot as plt def plot_colorMaps(cmap): fig, ax = plt.subplots(figsize=(4,0.4)) col_map = plt.get_cmap(cmap) mpl.colorbar.ColorbarBase(ax, cmap=col_map, orientation = 'horizontal') plt.sh…

アノテーション用のソフト

アノテーション用のソフトについて、以下の参考サイトがあったので掲載。 www.robots.ox.ac.uk engineering.matterport.com

Plotly のセットアップで詰まった所

seaborn の stack の barplot が難しいので、Plotly で実施するように変更した。settings に手こずったので tips のURL を掲載。 stackoverflow.com stackoverflow.com

{0..10}の10を他のコマンドから取得する方法

shell でディレクトリの階層分の for 文を回す時、for i in {0..$(hogehoge)}; do echo $i; done すると、{0..10}とかがechoされて意図と異なる挙動をした。 ので、メモ。 for i in $(seq 0 $(find . -type d -printf '%d\n' | sort -rn | head -1)); do ech…

機械学習のモデルの比較について

精度の標本平均の差と、McMemar検定をすることで効果測定できそう。 machinelearningmastery.com hs-www.hyogo-dai.ac.jp

傾向スコアのATTについて

傾向スコアについて、IPWのATTの計算式について詳しく書いていたので、抜粋。 ATTのときの、 ATT = E[Y_1 | Z=1] - E[Y_0 | Z=1]は公式に入れるとき、Z=1のみに限定されていない。ATEの公式と見比べるとわかる。 https://waidai-csc.jp/updata/2018/08/semin…

seaborn : barplot の xticks の調整が難しかった

seaborn の barplot を使っている時、1990~2020 年までのデータに不足があったので、間がとびとびのbarplotになっていた。 xticks(np.arange(1990, 2020)) とかで調整しようとすると、barが消えたりする。 不足分を補うことで、対応した。やむなし。idnex は…

2つ以上の histgram の bins の幅がいい感じにならなかったので

これでいい感じに揃えられた。 sns.set(font='IPAPGothic') plt.figure(figsize=(12, 4)) try: bins=np.histogram(np.hstack((tmp_0[col],tmp_1[col])), bins=50)[1] #get the bin edges except Exception as e: print(e) continue sns.distplot( tmp_0[col]…

Notebook を HTML形式で出力する方法

ワイルドカードでの指定でも可能 stackoverflow.com

ノンパラメトリックの検定

各水準の母分布が正規分布の場合は、分散分析による有意差検定が可能だが、ノンパラメトリックと仮定した場合は以下の検定がある。 swdrsker.hatenablog.com swdrsker.hatenablog.com

特徴量の自動選択

xgboost の特徴量選択について、total_gain で特徴量の重要度を抽出。 programmer.ink datanerd.hateblo.jp