Spark

spark の 文字取り込み

rdd でちょっとしたお試し。 flatMap は list --> rdd とするっぽい import re from collections import Counter def parse_string(line): try: article_id, text = unicode(line.rstrip()).split('\t', 1) except ValueError as e: return [] text = re.sub…

Sparkの...Typeってどれが対応しているのか調べた

private static DataType parseDataType(Config fieldsConfig) { String type = fieldsConfig.getString(FIELD_TYPE_CONFIG); switch (type) { case "string": return DataTypes.StringType; case "byte": return DataTypes.ByteType; case "short": return …