トップ «前の日記(2013-04-07) 最新 次の日記(2013-04-09)» 編集

ヨタの日々

2001|08|09|10|11|12|
2002|01|02|03|04|05|06|07|08|09|10|11|12|
2003|01|02|03|04|05|06|07|08|09|10|11|12|
2004|01|02|03|04|05|06|07|08|09|10|11|12|
2005|01|02|03|04|05|06|07|08|09|10|11|12|
2006|01|02|03|04|05|06|07|08|09|10|11|12|
2007|01|02|03|04|05|06|07|08|09|10|11|12|
2008|01|02|03|04|05|06|07|08|09|10|11|12|
2009|01|02|03|04|05|06|07|08|09|10|11|12|
2010|01|02|03|04|05|06|07|08|09|10|11|12|
2011|01|02|03|04|05|06|07|08|09|10|11|12|
2012|01|02|03|04|05|06|07|08|09|10|11|12|
2013|01|02|03|04|05|06|07|08|09|10|11|12|
2014|01|02|03|04|05|06|07|08|09|10|11|12|
2015|01|02|03|04|05|06|07|08|09|10|11|12|
2016|01|02|03|04|05|06|07|08|09|10|11|12|
2017|01|02|03|04|05|06|07|08|09|10|11|12|
2018|01|02|03|04|05|06|07|08|09|10|11|12|
2019|01|02|03|04|05|06|07|08|09|10|11|12|
2020|01|02|03|04|05|06|07|08|09|10|11|12|
2021|01|02|03|04|05|06|07|08|09|10|11|12|
2022|01|02|03|04|05|06|07|08|09|10|11|12|
2023|01|02|03|04|05|06|07|08|12|
2024|01|02|03|04|

2013-04-08 :-(

_ 午前

0520 起床

0830 検討

_ 午後

1300 検討

1720 退勤

_

1830 人工無脳は考える

2200 飯。塩鮭

_ 買い物

amazon

B009L169Y0

_ [N-gram][ruby][UTF-8]N-gram の先頭文字が漢字のものだけを選択する

※ ただし UTF-8 に限る

def ngram(gram = 2, text)
  ngrams ||= []
  len = text.length - 1
  0.upto(len) {|i|
    if i + gram > text.length
      return ngrams
    end
    
    t = text[i, gram]
    if t[0] =~ /\p{Han}/
      ngrams << t
    end
  }
  return ngrams
end

def main(argv)
  gram = 3
  text = <<-EOS
いいか、忘れんな。
おまえを信じろ。
おれが信じるおまえでもない。
おまえが信じる俺でもない。
おまえが信じる、おまえを信じろ!"
  EOS

  puts ngram(gram, text)
end

main(ARGV)
% ruby -Ku ngram1.rb
忘れん
信じろ
信じる
信じる
俺でも
信じる
信じろ

ref. Ruby1.9でUTF-8の漢字だけ正規表現でヒットさせる - 屑プログラマの憂鬱