昨日の BeautifulSoupで自分の記事をスクレイプ の続き。
https://blogmining.herokuapp.com/
記事本文を形態素解析してwordcloud と janome でテキストマイニングしてみた。
やはりこの分野での、(英語と比較して)日本語のやっかいさは群を抜いてると思う。
わけがわからない。
テックが日本語に対応していないということはよく聞くが、「これは時間の問題であって、グーグルが一生懸命データ収集してるからいずれ」と大抵の場合は議論が終わるが、根本的には言語設計の重大な欠陥にある。
・平仮名 50種類、漢字 1000種類、片仮名 50種類がある。コスパ悪すぎ
・違う漢字で同じ読みがある、同じ漢字で違う読みがある。
・文節にルールがない。単語と単語に機械的な区切りがない。
・「てにをは」が他の単語にも当然に含まれるため区別できない。
あげればきりがない。
英語はしゃべれないが、IT技術目線からその美しさがよくわかる。
・たった26種類のアルファベット
・すべてが1バイト
・すべては単語と単語の組み合わせのみ
・区切り文字が常に空白1バイト
「すもももももももものうち」
これが正しい文章だなんて、機械は仰天してると思う。