2018-01-01から1年間の記事一覧

MySQL の admin user以外で、ログインできなかった話

管理者権限のないuserでログインするとできなかった。 どうやら、MySQL5.7では、plugin を mysql_native_password にしないとパスワードなしログインはできないデフォルトらしい。 $ mysql -uroot ERROR 1698 (28000): Access denied for user 'root'@'local…

spark の 文字取り込み

rdd でちょっとしたお試し。 flatMap は list --> rdd とするっぽい import re from collections import Counter def parse_string(line): try: article_id, text = unicode(line.rstrip()).split('\t', 1) except ValueError as e: return [] text = re.sub…

Solr の jvm のメモリ状況確認

jps でprocess確認して、jstat で統計情報を確認 jps -v | less -SN jstat -gcutil -h3 708 1000 qiita.com docs.oracle.com blog.wackwack.net equj65.net

hadoop のテストするとき

Unit test unix test (cat | mapper | sort | reducer) integration test (stand alone mode: $HADOOP_EMPTY_CONFIG) run test

subplot で、ax の xtick を傾ける

fig,ax_ = plt.subplots(nrows=10, ncols=2, figsize=(14, 20)) ax_ = ax_.ravel() for i in range(20): list_ = M_feature_inverse[i][:3] ax = ax_[i] for l in list_: all_df_tmp = all_df_.loc[all_df_['pk']==l, :].groupby('request_at_dt').size().re…

Solr の debug を見やすくする

debug.explain.structured=true らしい。 http://example.com:8983/solr/item/select?indent=on&q=*:*&wt=json&debug=true&debug.explain.structured=true

House Priceの分析6

大まかな流れを把握 --> 提出まで 読み込み #import some necessary librairies import numpy as np # linear algebra import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv) %matplotlib inline import matplotlib.pyplot as plt # Matl…

wc -l のアクセス集計

wc -l のアクセス集計 を pythonで集計した。 wc -l accesslog.* a = ''' 10914 accesslog.20180828010002 8636 accesslog.20180829010001 4742 accesslog.20180830010002 6399 accesslog.20180831010001 6901 accesslog.20180901010001 5503 accesslog.2018…

MySQLのレプリケーションが遅延した場合

レプリケーション遅延 まずは、 show slave statusで Seconds_Behind_Master と Slave*Runningを確認する。 どれくらい遅延しているか確認できる。 slave1 [localhost] {msandbox} ((none)) > show slave status\G *************************** 1. row *****…

House Priceの分析5

前処理 import pandas as pd import numpy as np import seaborn as sns import matplotlib import matplotlib.pyplot as plt from scipy.stats import skew from scipy.stats.stats import pearsonr %config InlineBackend.figure_format = 'retina' #set '…

MySQL から pandas.Dataframe へ読み込む

pandasから、mysqlに読み込む方法 import pandas as pd import MySQLdb def pd_dbread(table, columns_list): """ 接続サンプル """ # 接続する con = MySQLdb.connect( user='aaa', passwd='aaa', host='127.0.0.1', db='aaa', charset='utf8' ) # カーソル…

ramdom でshuffleすると、return Noneになる問題

こうすればいいらしい。 >>> import random >>> x = ['foo', 'bar', 'black', 'sheep'] # O(N) operations・・・shuffle と同じロジック >>> random.sample(x, len(x)) ['bar', 'sheep', 'black', 'foo'] # O(NlogN) operation >>> sorted(x, key=lambda k: …

House Priceの分析4

XGBRegressorっていう、回帰モデルがあるので確認。 そもそも xgboost が結構界隈では有名らしい。 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.preprocessing import Imputer data = pd.read_csv('kaggle/kagg…

House Priceの分析3

回帰分析 ## 平均二乗誤差をルート def error(actual, predicted): actual = np.log(actual) predicted = np.log(predicted) return np.sqrt(np.sum(np.square(actual-predicted))/len(actual)) ## 対数変換 def log_transform(feature): train[feature] = n…

pyplot の 円グラフをいい感じに描く

f,a = plt.subplots(nrows=5, ncols=2, figsize=(14, 20)) a = a.ravel() for idx,ax in enumerate(a): v_list = km_center[idx] df_timeband_meanrate = pd.DataFrame( { 'timeband': name_list, 'rate': v_list }, ) print(idx, np.bincount(y_km)[idx]) d…

House Priceの分析2

前処理 %matplotlib inline import numpy as np import pandas as pd import matplotlib.pyplot as plt import scipy.stats as stats import sklearn.linear_model as linear_model import seaborn as sns import xgboost as xgb # <-- アンサンブル学習に使…

House Priceの分析1

タスク Goal It is your job to predict the sales price for each house. For each Id in the test set, you must predict the value of the SalePrice variable. Metric Submissions are evaluated on Root-Mean-Squared-Error (RMSE) between the logarit…

思い出したように CentOS7 に MySQL5.7 をインストールした

yum remove mysql-server mysql-libs mysql-devel mysql* rm -rf /var/lib/mysql/ yum -y install https://dev.mysql.com/get/mysql80-community-release-el7-1.noarch.rpm yum-config-manager --disable mysql80-community yum-config-manager --enable mys…

Hadoop のtutorial があった

これ短そうなんで、見てみる。 www.tutorialspoint.com Hadoop – Apache Hadoop 3.1.1

mermaid.js がデータフローに便利と聞いて

atom で atom-mermaid を追加 apm install atom-mermaid atom.io 以下の実装でいろいろ書けそう。 graph TB; id1[四角] id2((丸)) id3(角丸四角) id4{ひし形} id5>リボン] mermaid · GitBook qiita.com

pandasで円グラフ作成

pandasでpltは直接できて便利 defaulte_fig_size = plt.rcParams["figure.figsize"] plt.rcParams["figure.figsize"] = [12.0, 10.0] # plt.figure() # fig, axes = plt.subplots(nrows=4, ncols=1, ) fig = plt.figure() ax1 = fig.add_subplot(221) ax1.ti…

FFM の実装をtensorflowでもgitにあげている人いた。

そろそろ使えるようになりたいなと。 github.com github.com

tensflow で CNN を試す

CNN のチュートリアルをやってみた。 画像以外でも使いたい。 import numpy as np import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data mnist = input_data.read_data_sets("MNIST_data/", one_hot=True) train_data = mni…

matplotlib で figureの大きさを変える方法

import math import numpy as np from matplotlib import pyplot fig = pyplot.figure(figsize=(12, 4)) pi = math.pi #mathモジュールのπを利用 x = np.linspace(0, 2*pi, 100) #0から2πまでの範囲を100分割したnumpy配列 y = np.sin(x) # adjustFigAspect(…

silhouette_samples が Memory Errorになったときの対応

from sklearn.metrics import silhouette_samples silhouette_samples で、Memory Error にならない関数を作ってくれている。 stackoverflow.com

matplotlibについて

matplotlib について、一回tutorial やったほうが良いかも Tutorials — Matplotlib 2.2.2 documentation

sshできる local serverのIPに辺りをつける。

Mac

nmap で 探す sudo nmap -sS -p 22 --open 192.168.33.0/24 ## 権限の変更を使った。 sudo chown -R $(whoami) /usr/local/Homebrew serverfault.com

ubuntu18.4 にtensolrflow 動かすためにしたこと

cudaとかcudnnとか。gpuに関係しているものだろうか。 apt-get install cuda-9.0 wget http://developer.download.nvidia.com/compute/redist/cudnn/v7.0.5/cudnn-9.0-linux-x64-v7.tgz tar xzf cudnn-9.0-linux-x64-v7.tgz cp -a cuda/lib64/* /usr/local/l…

glibcをcentosにインストールしようとして苦戦した。

以下を行ってからバグった。確かめよう。 export LD_LIBRARY_PATH=/opt/glibc-2.14/lib unix.stackexchange.com gist.github.com Index of /results/mosquito/myrepo-el6/epel-6-x86_64/glibc-2.17-55.fc20/ Index of /gnu/glibc

Mysql で特定id毎の上位ランキングを出す

SQL

以下は結構便利。 SELECT * FROM Table1 t1 WHERE 2 >= ( SELECT COUNT(*) FROM Table1 t2 WHERE t1.category = t2.category AND t2.point >= t1.point ) ORDER BY category,point desc select id, category, point, name from ( select *, @rank := if (@ca…