2018-09-01から1ヶ月間の記事一覧

Solr の debug を見やすくする

debug.explain.structured=true らしい。 http://example.com:8983/solr/item/select?indent=on&q=*:*&wt=json&debug=true&debug.explain.structured=true

House Priceの分析6

大まかな流れを把握 --> 提出まで 読み込み #import some necessary librairies import numpy as np # linear algebra import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv) %matplotlib inline import matplotlib.pyplot as plt # Matl…

wc -l のアクセス集計

wc -l のアクセス集計 を pythonで集計した。 wc -l accesslog.* a = ''' 10914 accesslog.20180828010002 8636 accesslog.20180829010001 4742 accesslog.20180830010002 6399 accesslog.20180831010001 6901 accesslog.20180901010001 5503 accesslog.2018…

MySQLのレプリケーションが遅延した場合

レプリケーション遅延 まずは、 show slave statusで Seconds_Behind_Master と Slave*Runningを確認する。 どれくらい遅延しているか確認できる。 slave1 [localhost] {msandbox} ((none)) > show slave status\G *************************** 1. row *****…

House Priceの分析5

前処理 import pandas as pd import numpy as np import seaborn as sns import matplotlib import matplotlib.pyplot as plt from scipy.stats import skew from scipy.stats.stats import pearsonr %config InlineBackend.figure_format = 'retina' #set '…

MySQL から pandas.Dataframe へ読み込む

pandasから、mysqlに読み込む方法 import pandas as pd import MySQLdb def pd_dbread(table, columns_list): """ 接続サンプル """ # 接続する con = MySQLdb.connect( user='aaa', passwd='aaa', host='127.0.0.1', db='aaa', charset='utf8' ) # カーソル…

ramdom でshuffleすると、return Noneになる問題

こうすればいいらしい。 >>> import random >>> x = ['foo', 'bar', 'black', 'sheep'] # O(N) operations・・・shuffle と同じロジック >>> random.sample(x, len(x)) ['bar', 'sheep', 'black', 'foo'] # O(NlogN) operation >>> sorted(x, key=lambda k: …

House Priceの分析4

XGBRegressorっていう、回帰モデルがあるので確認。 そもそも xgboost が結構界隈では有名らしい。 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.preprocessing import Imputer data = pd.read_csv('kaggle/kagg…

House Priceの分析3

回帰分析 ## 平均二乗誤差をルート def error(actual, predicted): actual = np.log(actual) predicted = np.log(predicted) return np.sqrt(np.sum(np.square(actual-predicted))/len(actual)) ## 対数変換 def log_transform(feature): train[feature] = n…