2008年7月21日

面倒くさがり屋のための旧版Wordファイル解読法

Samstag, Juni 26, 2010 追記:もっと簡単なやり方がありました。新しい記事をどうぞ。以下は古い記事ですが、お暇ならどうぞ。


前々項のおまけ。

旧版のMS-Word(Word 2004以前)のファイルはテキスト部分がUTF-16LEなので、iconvとGNU sedを使えば、こんな風にしてテキストが抽出できます。
$ iconv -f UTF-16LE hoge.doc | gsed -e 's/[^[:print:][:space:]]//g' > hoge.txt
ちょっとゴミは残りますがご勘弁。


一太郎ファイルの場合、iconvの-fオプション引数を「UTF-16」にすればできそうに思えるのですが、私の環境ではうまくいきませんでした。これでできれば、前項のようにテキストエディタでバイナリ部分も含めて開くより、多少は安全に作業できるはずなんですが。なんでできないのかな (?_?;;



なお、これも緊急避難的に「自己責任」でどうぞ。


☆ JULI 29 追記

Antiword」というものがありました。

これだとけっこうきれいにテキスト(UTF-8)が抜き出せます。
でも、名前が... 私は、アンチMS/アンチWordじゃなくて、ただ面倒くさがり屋なだけなんですけど。


★JANUAR 07, 2009 追記

な〜んだ! です。
MacOSXにもともと含まれているテキストエディット.app」で旧版MS-Wordファイルは読めますよ。
テキストエディタとしてはショボイんですが、旧版Wordファイル読みに、これけっこう使えますね。
これに気付かなかったのは迂闊でした :-}

0 件のコメント: