課題もらっちゃった。。
これについて解いていこうと思っている。
何か処理したレコード群を、既存のテーブルにon duplicateでinsertする課題。 1. バルクinsert 2. tsvに一旦出力して、ローカルload dataとリモートload data 3. tsvに一旦出力して、csv engineでtableに見せかけて、既存tableにinsert 4. load dataは、STDINを入力にできるから、一時ファイル書き出しを省略して、subprocessで起動したload dataプロセスのSTDINにレコードを流し込んでinsert 5 . 上の、load dataのパターンそれぞれで、1万レコード単位で、PKでソートしつつinsert 一定期間で古いレコードを削除する時に楽になるよう、PARTITION BY RANGEを使う。 partitionの追加は、できればevent schedulerで自動化したほうがいいけど、とりあえず手動でいい