hadoop のテストするとき

Unit test unix test (cat | mapper | sort | reducer) integration test (stand alone mode: $HADOOP_EMPTY_CONFIG) run test

subplot で、ax の xtick を傾ける

fig,ax_ = plt.subplots(nrows=10, ncols=2, figsize=(14, 20)) ax_ = ax_.ravel() for i in range(20): list_ = M_feature_inverse[i][:3] ax = ax_[i] for l in list_: all_df_tmp = all_df_.loc[all_df_['pk']==l, :].groupby('request_at_dt').size().re…

Solr の debug を見やすくする

debug.explain.structured=true らしい。 http://example.com:8983/solr/item/select?indent=on&q=*:*&wt=json&debug=true&debug.explain.structured=true

House Priceの分析5

大まかな流れを把握 --> 提出まで 読み込み #import some necessary librairies import numpy as np # linear algebra import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv) %matplotlib inline import matplotlib.pyplot as plt # Matl…

wc -l のアクセス集計

wc -l のアクセス集計 を pythonで集計した。 wc -l accesslog.* a = ''' 10914 accesslog.20180828010002 8636 accesslog.20180829010001 4742 accesslog.20180830010002 6399 accesslog.20180831010001 6901 accesslog.20180901010001 5503 accesslog.2018…

MySQLのレプリケーションが遅延した場合

レプリケーション遅延 まずは、 show slave statusで Seconds_Behind_Master と Slave*Runningを確認する。 どれくらい遅延しているか確認できる。 slave1 [localhost] {msandbox} ((none)) > show slave status\G *************************** 1. row *****…

House Priceの分析5

前処理 import pandas as pd import numpy as np import seaborn as sns import matplotlib import matplotlib.pyplot as plt from scipy.stats import skew from scipy.stats.stats import pearsonr %config InlineBackend.figure_format = 'retina' #set '…

MySQL から pandas.Dataframe へ読み込む

pandasから、mysqlに読み込む方法 import pandas as pd import MySQLdb def pd_dbread(table, columns_list): """ 接続サンプル """ # 接続する con = MySQLdb.connect( user='aaa', passwd='aaa', host='127.0.0.1', db='aaa', charset='utf8' ) # カーソル…

ramdom でshuffleすると、return Noneになる問題

こうすればいいらしい。 >>> import random >>> x = ['foo', 'bar', 'black', 'sheep'] # O(N) operations・・・shuffle と同じロジック >>> random.sample(x, len(x)) ['bar', 'sheep', 'black', 'foo'] # O(NlogN) operation >>> sorted(x, key=lambda k: …

House Priceの分析4

XGBRegressorっていう、回帰モデルがあるので確認。 そもそも xgboost が結構界隈では有名らしい。 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.preprocessing import Imputer data = pd.read_csv('kaggle/kagg…

House Priceの分析3

回帰分析 ## 平均二乗誤差をルート def error(actual, predicted): actual = np.log(actual) predicted = np.log(predicted) return np.sqrt(np.sum(np.square(actual-predicted))/len(actual)) ## 対数変換 def log_transform(feature): train[feature] = n…

pyplot の 円グラフをいい感じに描く

f,a = plt.subplots(nrows=5, ncols=2, figsize=(14, 20)) a = a.ravel() for idx,ax in enumerate(a): v_list = km_center[idx] df_timeband_meanrate = pd.DataFrame( { 'timeband': name_list, 'rate': v_list }, ) print(idx, np.bincount(y_km)[idx]) d…

House Priceの分析2

前処理 %matplotlib inline import numpy as np import pandas as pd import matplotlib.pyplot as plt import scipy.stats as stats import sklearn.linear_model as linear_model import seaborn as sns import xgboost as xgb # <-- アンサンブル学習に使…

House Priceの分析1

kaggleのデータを使って、データの相関とか調べる #invite people for the Kaggle party import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np from scipy.stats import norm from sklearn.preprocessing import …

思い出したように CentOS7 に MySQL5.7 をインストールした

yum remove mysql-server mysql-libs mysql-devel mysql* rm -rf /var/lib/mysql/ yum -y install https://dev.mysql.com/get/mysql80-community-release-el7-1.noarch.rpm yum-config-manager --disable mysql80-community yum-config-manager --enable mys…

Hadoop のtutorial があった

これ短そうなんで、見てみる。 www.tutorialspoint.com Hadoop – Apache Hadoop 3.1.1

mermaid.js がデータフローに便利と聞いて

atom で atom-mermaid を追加 apm install atom-mermaid atom.io 以下の実装でいろいろ書けそう。 graph TB; id1[四角] id2((丸)) id3(角丸四角) id4{ひし形} id5>リボン] mermaid · GitBook qiita.com

pandasで円グラフ作成

pandasでpltは直接できて便利 defaulte_fig_size = plt.rcParams["figure.figsize"] plt.rcParams["figure.figsize"] = [12.0, 10.0] # plt.figure() # fig, axes = plt.subplots(nrows=4, ncols=1, ) fig = plt.figure() ax1 = fig.add_subplot(221) ax1.ti…

FFM の実装をtensorflowでもgitにあげている人いた。

そろそろ使えるようになりたいなと。 github.com github.com

tensflow で CNN を試す

CNN のチュートリアルをやってみた。 画像以外でも使いたい。 import numpy as np import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data mnist = input_data.read_data_sets("MNIST_data/", one_hot=True) train_data = mni…

matplotlib で figureの大きさを変える方法

import math import numpy as np from matplotlib import pyplot fig = pyplot.figure(figsize=(12, 4)) pi = math.pi #mathモジュールのπを利用 x = np.linspace(0, 2*pi, 100) #0から2πまでの範囲を100分割したnumpy配列 y = np.sin(x) # adjustFigAspect(…

silhouette_samples が Memory Errorになったときの対応

from sklearn.metrics import silhouette_samples silhouette_samples で、Memory Error にならない関数を作ってくれている。 stackoverflow.com

matplotlibについて

matplotlib について、一回tutorial やったほうが良いかも Tutorials — Matplotlib 2.2.2 documentation

sshできる local serverのIPに辺りをつける。

Mac

nmap で 探す sudo nmap -sS -p 22 --open 192.168.33.0/24 ## 権限の変更を使った。 sudo chown -R $(whoami) /usr/local/Homebrew serverfault.com

ubuntu18.4 にtensolrflow 動かすためにしたこと

cudaとかcudnnとか。gpuに関係しているものだろうか。 apt-get install cuda-9.0 wget http://developer.download.nvidia.com/compute/redist/cudnn/v7.0.5/cudnn-9.0-linux-x64-v7.tgz tar xzf cudnn-9.0-linux-x64-v7.tgz cp -a cuda/lib64/* /usr/local/l…

glibcをcentosにインストールしようとして苦戦した。

以下を行ってからバグった。確かめよう。 export LD_LIBRARY_PATH=/opt/glibc-2.14/lib unix.stackexchange.com gist.github.com Index of /results/mosquito/myrepo-el6/epel-6-x86_64/glibc-2.17-55.fc20/ Index of /gnu/glibc

Mysql で特定id毎の上位ランキングを出す

SQL

以下は結構便利。 SELECT * FROM Table1 t1 WHERE 2 >= ( SELECT COUNT(*) FROM Table1 t2 WHERE t1.category = t2.category AND t2.point >= t1.point ) ORDER BY category,point desc select id, category, point, name from ( select *, @rank := if (@ca…

matplotまとめてあったので、引用

python-remrin.hatenadiary.jp

models の CharField に regex の判定を追加

alphanumeric の RegexValidator で追加。 alphanumeric = RegexValidator(r'^[0-9a-zA-Z]*$', 'Only alphanumeric characters are allowed.') name = models.CharField(max_length=50, blank=True, null=True, validators=[alphanumeric]) email = models.E…

Varnishについて

いつの日にか実装するかもしれないので、メモ github.com qiita.com