学習曲線と検証曲線を使って、バイアスとバリアンスを可視化

以下をまずは見て。 kidnohr.hatenadiary.com train_size を指定することで、学習曲線を描画 import matplotlib.pyplot as plt from sklearn.model_selection import learning_curve pipe_lr = make_pipeline(StandardScaler(), LogisticRegression(penalty=…

層化 k 分割交差検証の実装

以下のリンクの続き kidnohr.hatenadiary.com StratifiedKFold を使った場合。kfold からどのような組み合わせか確認できる import numpy as np from sklearn.model_selection import StratifiedKFold kfold = StratifiedKFold(n_splits=10, random_state=1)…

sklearnのpipelineの使い方

make_pipelineを通して、(入力)=>(変換器(複数))=>(推定器)=>(出力) のwrapperを利用できる。 変換器は fit & transform 推定器は fit import pandas as pd from sklearn.cross_validation import train_test_split from sklearn.preprocessing import Label…

Janusgraphを使った実装例

github.com

awkコマンドが$0が全てと知ったとき...

awkコマンドの基本

ランダムフォレストで特徴選択する方法

次元削減で特徴抽出する方法を本から抜粋 df_wine = pd.read_csv('http://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data', header=None) from sklearn.ensemble import RandomForestClassifier feat_labels = df_wine.columns[1:] fore…

Apache groovy を勉強するとき、参考にしたサイト

2. Apache Groovyとは - Apache Groovyチュートリアル Groovyよく使いそうなメソッド(List編) 例 (1..10).stream() .filter { // streamのfilter。Groovyで言うところのfindAll。 it % 2 == 0 }.map{ Integer hoge -> //streamのmap。Groovyで言うところの…

$! は最後に実行したバックグラウンドプロセスID

$1, $2, $3, ... are the positional parameters. "$@" is an array-like construct of all positional parameters, {$1, $2, $3 ...}. "$*" is the IFS expansion of all positional parameters, $1 $2 $3 .... $# is the number of positional parameters.…

GremlinでSample作成

TinkerPop3 Documentation graph = TinkerGraph.open() marko = graph.addVertex(T.label, "person", T.id, 1, "name", "marko", "age", 29) vadas = graph.addVertex(T.label, "person", T.id, 2, "name", "vadas", "age", 27) lop = graph.addVertex(T.lab…

二次元の分類結果を plot

機械学習の結果、2 個の特徴の座標と分類結果をわかりやすく図で出力している import numpy as np import matplotlib.pyplot as plt from matplotlib.colors import ListedColormap def plot_dicision_regions(X, y, classifier, test_idx=None, resolusions…

.tgz のファイルを開いて読み取る方法

tarfile はZipとは違うアプローチが必要 import tarfile workpath = '/tmp/test.tgz' filename = 'test1.tsv' with tarfile.open(workpath) as tfile: if filename not in tfile.getnames(): raise Exception('No such file %s' % filename) with tfile.extr…

テンソルの勉強について

以下のサイトで、テンソル積やその他諸々の解説をしてた。 http://www.mm.civil.tohoku.ac.jp/renzokutai/0_suugaku.pdf

curl でファイルから --data-urlencodeを指定

通常の場合は、ファイルから値を指定するときは以下 ## http://example.com?name=[test.txtの中身] curl http://example.com --data-urlencode name@filename < test.txt 標準入力から入力するときは、以下を使う ## 標準入力での -(ハイフン) の使い方 $ …

CentOS6 に cassandra を yum install する方法

centos6だと、yum install datastax での install をする必要があった $ java -version java version "1.8.0_25" Java(TM) SE Runtime Environment (build 1.8.0_25-b17) Java HotSpot(TM) 64-Bit Server VM (build 25.25-b02, mixed mode) # vi /etc/yum.re…

janusgraph+cassandra で graph database を構築

Cassandra の yum install /etc/yum.repos.d/cassandra.repo [cassandra] name=Apache Cassandra baseurl=https://www.apache.org/dist/cassandra/redhat/311x/ gpgcheck=1 repo_gpgcheck=1 gpgkey=https://www.apache.org/dist/cassandra/KEYS yum -y insta…

Python での S3 からファイル取得(boto3)

boto3というモジュールが存在して、それを使ってS3 のファイルが取得できる。 ファイルのキー取得 In [1]: import boto3 In [7]: import botocore In [21]: s3 = boto3.resource('s3', aws_access_key_id=S3_ACCESS_KEY, aws_secret_access_key=S3_SECRET_KE…

Sparkの...Typeってどれが対応しているのか調べた

private static DataType parseDataType(Config fieldsConfig) { String type = fieldsConfig.getString(FIELD_TYPE_CONFIG); switch (type) { case "string": return DataTypes.StringType; case "byte": return DataTypes.ByteType; case "short": return …

LDA(Latent Dirichlet Allocation) でのトピック抽出

以下の形式のsample.csvからデータを取得し、sklean の LDA でトピック抽出する。 id text 1 今日は晴れ。明日は雨 2 今日はカープが優勝した。 ... ... text2topic.py #!/usr/bin/env python # coding:utf-8 from __future__ import print_function from ti…

SolrのTermVectorsComponentでキーワード抽出してみる

tfidfを用いてなにかできないかと模索。 結果、検索で引っかかつキーワードが出てきただけ。。 The Term Vector Component | Apache Solr Reference Guide 7.1 #!/usr/bin/env python # coding:utf-8 import requests import json from heapq import heappus…

統計学の勉強するのに便利そう

to-kei.net

AWS にて、 dockerの立ち上げがうまく行かなかった

AWSにて、「データ分析基盤構築入門」を見て、立ち上げたけどエラーが出た。。 https://www.amazon.co.jp/dp/B075RTZ141 $ git clone https://github.com/efkbook/blog-sample $ cd blog-sample/ $ docker-compose up -d Building go Step 1/5 : FROM golang…

CurlのSFTPにて、サーバにアクセスするためには...

--insecure にするといける。 $ curl --insecure -u sftp_user:pass sftp://domain/directory1/

MacからプリンターのIPを探す方法

dns-sdは、Macに接続しているデバイスのIPアドレスを探すのに、便利 対応内容 1. dns-sdの対応しているサービスを表示 $ dns-sd -B _services._dns-sd._udp local. Browsing for _services._dns-sd._udp.local. DATE: ---Fri 20 May 2016--- 23:54:37.797 ..…

djangoのtest(django-nose, coverage)を使用する時

djangoでtestをするとき、django-nose、coverageが使える。 $ pip install nose $ pip install django-nose $ pip install coverage settigns.py INSTALLED_APPS += ['django_nose', ] TEST_RUNNER = 'django_nose.NoseTestSuiteRunner' NOSE_ARGS = [ '--wi…

1億行のファイルを読み込む方法

ファイルを書き出す manyrowstsv.py #!/usr/bin/env python # coding:utf-8 import signal import sys import os import glob import logging import logging.handlers import shutil import tempfile import random import datetime import string import c…

Linuxのリソース確認にgrafanaとか言うのが大変便利

blog.serverworks.co.jp

最大流について

問題 s => t に最大量のデータを流す場合、最大どれだけのデータを送信できるか。 class MaxTraffic(object): def __init__(self, N=5): self.N = N self.edge = [[] for i in range(N)] self.used = [0 for i in range(N)] self.inf = 10 ** 9 def append(s…

最小値の最大化(二分探索)と、反転操作回数の最小化

面白い問題があったのでPythonで記載。 問題 1 N個の牛小屋について、M頭の牛を買っている。 x・・・牛小屋の位置 最も近い牛の間隔を最大化するためにどうするか 解法 最小・最大化問題について、収束判定するために二分探索が用いられるらしい class Inter…

Numpyのnewaxisの説明で分かりやすいのがあった

stackoverflow.com

レーベンシュタイン距離をいい感じにまとめているサイトがあった

いまさら編集距離 (Levenshtein Distance) を実装するぜ | takuti.me