Pajek

■Pajekとは?
→大規模ネットワークグラフ作成ソフトの事です。「パエック」と発音するのが正しいようです。

■なにが出来るの?→ネットワークの可視化
→普段見ることの出来ない関係を可視化することが容易に出来ます。その状況の理解を助けることが出来ます
(例)企業間の関係、人間関係・・・電極間の関係・・・

■どうやって入手するの?
→下記のURLをクリックしてください
http://vlado.fmf.uni-lj.si/pub/networks/pajek/
ページトップに以下の文が書いてあります

----------
Pajek runs on Windows and is free for noncommercial use.

Test version of Pajek X.XX for Windows 32 
----------
と書いてあるので下線部[Pajek X.XX]をクリックしてください。ファイルの保存を促すダイアログが表示されます。
2007年3月7日時点で、バージョンは1.18ですので下線部はPajek 1.18と表記されています

■インストール
→ダウンロードしたファイルを実行すると、解凍するフォルダを聞いてきますので(c:\pajekになっていると思います)
そのまま、進めてください。

次に、インストールフォルダを見ると(c:\pajek)実行プログラムのショートカットが出来ていますので
デスクトップ上にコピーしてください。
これで、いつでもpajekを利用できます。

実際にデータを作って表示するまでの流れ(2008年3月追記)

(例)私が書いたブログのジャンルとキーワードの関係
ここでは、私が書いたブログの文章から形態素解析器(chasen)で語を抽出し、
それぞれのジャンル(私的なニュース・医学医療系・情報系・世の中の出来事)で登場するキーワードを元に
どのような関係になるのかpajekで表してみます。
使ったネタは開設〜2008年2月29日までの文章です。

1:chasen(茶筅)による形態素解析
chasenはhttp://sourceforge.jp/projects/chasen-legacy/でダウンロードできます。
以下winchaによる説明を書いていきます。winchaをダウンロード・インストールしてください。

winchaを起動すると次のような画面が出てきます。
wincha画面
このテキストの部分に文字を入力して「全文解析」ボタンを押すと解析結果が下の欄に表示されます。
また、テキスト部分を全てファイルに入れた場合、該当するファイルをwincha上でドラッグアンドドロップすることで、
そのテキストファイルの解析を実行します。

ここでは、ブログの内容をエディタ(メモ帳)にコピーし、テキストファイルの形にします。
保存されたテキスト形式のファイルはコチラ
(但し、新聞記事の抜粋部分などは削除して私の言葉のみ分析対象としました)
私的なニュース
医学医療系
情報系
世の中の出来事

これをwinchaで解析した結果はコチラ
(winchaの設定は「表層語」「品詞」を選択。区切りは「,」で行いました
私的なニュース
医学医療系
情報系
世の中の出来事

次に、今回のキーワードとして「名詞」に着目しました。
「名詞」のみ抜き出す方法には、結果のファイルをエクセルで取り込み、
オートフィルタで「名詞」を選ぶと、容易に抜き出せます。
「名詞」を抽出し、その中から「非自立」を除いた結果はコチラ
私的なニュース
医学医療系
情報系
世の中の出来事

次に、抽出した結果からそれぞれの名詞と4つの分類にノードのIDを振ります
それぞれの名詞と分類の関係を記述すると、pajekに読み込むファイルが出来ます。

pajekのファイルの中身(例)
----ココカラ----
*Vertices XX
1 "label1" ic Blue
2 "label2" ic Red
3 "label3" ic Gray
(中略)
xx "labelxx" ic Gray
*Edges
1 2
1 3
----ココマデ----
Verticesの後XXのところにはノードの数を入れてください。
次の行からそれぞれのノードのラベル名などを定義していきます。
ここではノードの中の色を定義しています。
それぞれの項目はスペースを一つ以上あけたらOKです。
*Edges以下にノード間の関係を記述してください。
もし、エッジに矢印をつけたい場合は
*Arcs と書いてください。

pajek用のファイルはエクセルで作成し.prn(テキスト(スペース区切り))で出力しています。
ワークシート上で隣のセルとくっついていると、pajekがうまく読み込んでくれません。ご注意ください

名詞・分類-IDリスト
pajek読み込みファイル

(Pajekではノードのラベルに日本語が使えないのでここではラベルをIDと同じにしています。
また、ノードの色と大きさについて分類と名詞では区別できるようにしています)

pajekを起動します。
pajek画面
ファイルを取り込むには、図中1のボタンをクリックすると
ダイアログが出てくるので選択してください。
ファイルを読み込みます。
次にメニューバー[draw]の[draw](図中2)をクリックすると
ファイルのデータを元にグラフの作成を行います。
pajekでファイルを読み込んだところ 最初に描かれたグラフはノードを円周上に配置した状態です。
ここから、各種設定を確認してそれぞれの関係を空間上の配置で示すグラフを作成します。
ここでは、出来上がりのグラフを私のものと揃えるため、starting positionをcircleに設定します。
(上の図参照)

次に.netファイルに記述されているノードの色の設定をグラフに反映させます。
pajek オプション設定
上の図を参考にして
メニューバー[options]→[size]→[of Vertices defined in input file]を選択
メニューバー[options]→[colors]→[Vertices]→[As defined on input file]を選択してください

そして、グラフのレイアウトを[fruchterman reingold]法で描画します。
メニューバー[layout]→[Energy]→[Fruchterman reingold]→[2D]を選択します。
pajekでmedbbブログのキーワードとカテゴリーの関係図

乱暴な説明でしたが、上記のようなグラフが出来たでしょうか?