1月 07
最近昼休み中によく行っているのが、その日一日で面白いなあと思ったブログエントリのURLや文章の一部を階層化されたカテゴリに分けて保存し、マインドマップに落とし込むという作業なのですが、その作業の中で階層化する作業については、将来はある程度自動化したいと思っています。
そのブログ自体やソーシャルブックマークサイトなどからそのエントリに関連するタグを取得し、そのタグをカテゴリとして階層化するツールを作ろうかと思ったこともあるのですが、タグというものは基本的にはどのタグも同格で階層分けができておらず、たとえば経済系のエントリで「デフレ」「経済」「格差」「下方硬直性」などのタグが並んでいた場合、どれを第一階層のカテゴリにするのか、という判別が自動的にはできず、結局がんばって手でやることになります。
そこで、googleの「検索ヒット数」を利用してそのタグで使われている単語を上位語/下位語に分けた上で、タグの関連性(同じコンテンツに付けられているタグ同士は近い言葉である可能性が高い)によって階層化できないかなあと思いつき、今色々とテストしています。
ちょっと誤差が大きそうなので、そのあたりをどう吸収するかが課題ですね。
最近のコメント