驢の耳だと思ったら遼東の豕だった: 面倒くさがり屋のための旧版Wordファイル解読法

2008年7月21日

Samstag, Juni 26, 2010 追記：もっと簡単なやり方がありました。新しい記事をどうぞ。以下は古い記事ですが、お暇ならどうぞ。

前々項のおまけ。

旧版のMS-Word（Word 2004以前）のファイルはテキスト部分がUTF-16LEなので、iconvとGNU sedを使えば、こんな風にしてテキストが抽出できます。

$ iconv -f UTF-16LE hoge.doc | gsed -e 's/[^[:print:][:space:]]//g' > hoge.txt

ちょっとゴミは残りますがご勘弁。

一太郎ファイルの場合、iconvの-fオプション引数を「UTF-16」にすればできそうに思えるのですが、私の環境ではうまくいきませんでした。これでできれば、前項のようにテキストエディタでバイナリ部分も含めて開くより、多少は安全に作業できるはずなんですが。なんでできないのかな (?_?;;

なお、これも緊急避難的に「自己責任」でどうぞ。

☆ JULI 29 追記

「Antiword」というものがありました。

これだとけっこうきれいにテキスト（UTF-8）が抜き出せます。

でも、名前が... 私は、アンチMS／アンチWordじゃなくて、ただ面倒くさがり屋なだけなんですけど。

★JANUAR 07, 2009 追記

な〜んだ! です。

MacOSXにもともと含まれている「テキストエディット.app」で旧版MS-Wordファイルは読めますよ。

テキストエディタとしてはショボイんですが、旧版Wordファイル読みに、これけっこう使えますね。

これに気付かなかったのは迂闊でした :-}

驢の耳だと思ったら遼東の豕だった