前々項のおまけ。
旧版のMS-Word(Word 2004以前)のファイルはテキスト部分がUTF-16LEなので、iconvとGNU sedを使えば、こんな風にしてテキストが抽出できます。
$ iconv -f UTF-16LE hoge.doc | gsed -e 's/[^[:print:][:space:]]//g' > hoge.txt
ちょっとゴミは残りますがご勘弁。一太郎ファイルの場合、iconvの-fオプション引数を「UTF-16」にすればできそうに思えるのですが、私の環境ではうまくいきませんでした。これでできれば、前項のようにテキストエディタでバイナリ部分も含めて開くより、多少は安全に作業できるはずなんですが。なんでできないのかな
(?_?;;
なお、これも緊急避難的に「自己責任」でどうぞ。
☆ JULI 29 追記
「Antiword」というものがありました。
これだとけっこうきれいにテキスト(UTF-8)が抜き出せます。
でも、名前が... 私は、アンチMS/アンチWordじゃなくて、ただ面倒くさがり屋なだけなんですけど。
★JANUAR 07, 2009 追記
な〜んだ! です。
MacOSXにもともと含まれている「テキストエディット.app」で旧版MS-Wordファイルは読めますよ。
テキストエディタとしてはショボイんですが、旧版Wordファイル読みに、これけっこう使えますね。
これに気付かなかったのは迂闊でした :-}
0 件のコメント:
コメントを投稿