過去数多の人がやってきたと思うけど

2009/09/03 | たいぴんぐ

気が向いたので TW のワードセットをごにょごにょ.

Shift_JIS に違いないと決めつけてかかって,このビット列がこういうビット列になるには……と逆行列求めたりしていたんだけど普通に素の Unicode だよっていうね.線形変換できるわけがないんだよ馬鹿が.ひらがなが 0×30 と何かの組になってたら Unicode,という人力エンコーディング判定法を覚えたのでよしとする.なぜか「入力」に見える.前後の文脈が単語読解のヒントとして使われている例.

成果物としては TWEW は完全だと思う.

TWJR は適当にやったので Unicode(UTF-16) で上位 1 オクテットが 0×00 な文字で始まる単語が含まれてなかったりするかもしれないというかする.とりのさんの基本常用と比較した結果 3 語ほど抜けてたお.

漢字に対して読みを振るのもまだ. 別にバイナリごにょごにょでいいけど,せっかくだから KAKASI の精度がみてみたいんだよね,特に慣ことで.ということでぼちぼち.

割とアレというかアレなので,私的な研究目的とか,そういうのでお願いします,と言っておきます*1

  1. 公式にワードセットの扱いについて示してもらえたらタイピング界としては助かるけどねぇ. []

Trackback URL

コメント (2) to 過去数多の人がやってきたと思うけど

とりの
2009/9/4 金曜日

過去に「ワード調べて晒してもいいですか?」という風なメールをした時には、「問題ない」といった風な返事があったと記憶してますので、そっち方面は多分大丈夫。

とりあえず TWEW は単語帳が付属している罠。ご苦労様です。
完成度は ReadMe に書いてある登録語句数と比較すると良い感じ。「カタカナ語」のは少なくとも一つは余分みたいです。

wh
2009/9/4 金曜日

> そっち方面は多分大丈夫。
そうだったんですね.じゃとりあえず安心.
また別ゲームに使いたいとかなったら自分でも一度連絡しようとは思ってます.

> とりあえず TWEW は単語帳が付属している罠。
灯台下暗しすぎた……

> 「カタカナ語」のは少なくとも一つは余分みたいです
余分ってのはおかしな話だなぁ(w
ダブりがないなら,常用語に入っているべきカタカナ語が紛れ込んでるとかかな.
確認 thx でした.

コメントをどうぞ