tconv "Text Encoding Converter with XML support" Version 0.5


ソフトウェアの更新日付: 1999年7月20日


ソフトウェアの著作権表記: Copyright (c) 1999 by Pie Dey Co.,Ltd.


 ここは、tconv "Text Encoding Converter with XML support" Version 0.5に関する情報を提供するページです。tconv "Text Encoding Converter with XML support" Version 0.5は、 株式会社ピーデー の川俣 晶 (autumn@piedey.co.jp)が開発し、フリーソフトウェアとして公開しているソフトウェアです。


概要

 テキストファイルのテキストエンコーディングスキームを変換します。

 明示的な指定の他に、XML宣言を利用してソース側エンコーディングを判定するXMLモード、E-Mailメッセージのヘッダー情報でエンコーディングを判定するE-Mailモード、テキストそのもののビットパターンで判別する自動判定モードを持ちます。

 JIS TR X 0015:1999に記載されたエンコーディング名をサポートすることで、異なる内容のUnicode変換テーブルで変換されたデータを正しく変換できます。

動作環境

Windows NT4.0 (たぶんWin9Xでも動きます)

使用方法

 コマンドラインより以下の書式で使用します。

tconv [入力エンコーディング名 [入力エンコーディング名 [ファイル名]]]

 ファイル名を省略すると、標準入力から読み込みます。

 変換結果は標準出力に出力されます。

 出力エンコーディングがWindows文字セット(シフトJIS)以外の場合、コンソールに出力すると、文字化けします(当然の結果ですが)。

例)

 Windows文字セット(シフトJIS)からUTF-8へファイルhoge.txtを変換するには。

tconv Windows-31J UTF-8 hoge.txt

 プロセスの終了値としては、以下のものがサポートされています。

0 エラー無し

2 エラー発生

配布規則

 本ソフトウェアは、株式会社ピーデーがサービスのために配布するもので、商品ではありません。無料です。従って、一切のサポートはありません。保証もありません。

 Copyrightは保持しますが、改編、転載などは、自由です。

 ただし、中身を変更した場合は、どこの誰が何を変更したのかを明記して下さい。また、改編したバージョンを配布する場合は、必ずソースコードを付けて下さい。その場合は、川俣 晶  autumn@piedey.co.jp (autumn@piedey.co.jp) まで連絡下さると嬉しいです。有益な改良は、こちらで配布する版にも反映させたいと思います。

 パソコン通信、インターネット、書籍などに掲載する場合は、ご一報下さい。

使用できるエンコーディング名

 エンコーディング名は、IANAに登録された名前を採用していますが、一部そうでないものもあります。x-で始まる名前は、JIS X TR 0015:1999 XML日本語プロファイルに準拠しています。

・utf-8

 UnicodeのUTF-8

・utf-16be

 ビッグエンディアンのUTF-16。

 入力時、先頭にBOMがある場合無視される。

 出力時、先頭にBOMを付ける。

 (leもbeも付かないutf-16は自動判定と同じことなのでサポートをやめた)

・utf-16le

 リトルエンディアンのUTF-16。

 入力時、先頭にBOMがある場合無視される。

 出力時、先頭にBOMを付ける。

 (leもbeも付かないutf-16は自動判定と同じことなのでサポートをやめた)

・x-sjis-jdk1.1.7

 シフトJIS。

 Unicodeへの変換はJavaネイティブテーブルを使用。

・x-sjis-unicode-0.9

 シフトJIS。

 Unicodeへの変換はUnicodeコンソーシアムのテーブルを使用。

・x-sjis-jisx0221-1995

 シフトJIS。

 Unicodeへの変換はJIS X 0221-1995のテーブルを使用。

・x-sjis-cp932 (alias Windows-31J, Shift_JIS)

 シフトJIS。

 Unicodeへの変換はMicrosoftのCP932テーブルを使用。

・x-eucjp-unicode-0.9

 EUC-JP。

 Unicodeへの変換はUnicodeコンソーシアムのテーブルを使用。

・x-eucjp-jisx0221-1995

 EUC-JP。

 Unicodeへの変換はJIS X 0221-1995のテーブルを使用。

・x-eucjp-open-19970715-ms (alias EUC-JP)

 EUC-JP。

 参考URL1および2を参照。

 (Unicodeへの変換はMicrosoftのCP932テーブルを使用)

・x-eucjp-open-19970715-0201

 EUC-JP。

 参考URL1および2を参照。

 (半角文字がJIS X 0201であると仮定)

・x-eucjp-open-19970715-ascii

 EUC-JP。

 参考URL1および2を参照。

 (半角文字がUS-ASCIIであると仮定)

・x-iso2022jp-unicode-0.9

 EUC-JP。

 Unicodeへの変換はUnicodeコンソーシアムのテーブルを使用。

・x-iso2022jp-jisx0221-1995

・x-iso2022jp-cp932 (alias ISO-2022-JP)

・x-iso2022jp-jdk1.1.7

・x-iso2022jp-19970715-ascii

 以上は、ISO-2022-JPであるが、変換テーブルは、シフトJISまたはEUC-JPの類似名のものを使用する。

・E-Mail

 入力データを電子メールの受信イメージと見なし、電子メールヘッダーから、エンコーディングを判定して処理する。

・XML (XML-auto-detection and replace XML-Declaration)

 入力データをXML文書と見なし、XML仕様書1.0版Appendix Fのルール(ただし一部変更)により、エンコーディングを判定して処理する。

・- またはパラメータ無し

 入力時はプレーンテキストとして自動判定を試みる。

 BOMがあればutf-16leまたはbeとなる。

 BOMが無い場合は、シフトJISとISO-2022-JPを自動識別する。

 出力時はシフトJISと見なす。(システムデフォルトなので)

参考資料

参考資料1

 JIS TR X 0015:1999 XML日本語プロファイル

http://www.fxis.co.jp/DMS/sgml/xml/tr_xml_jpf/toc.htm

参考資料2

 EUC-JPの各種変換規則:

http://www.opengroup.or.jp/jvc/cde/appendix.html

注意

 Shift_JISなどの汎用的な名前を指定した場合、マイクロソフトの変換テーブル(cp932)であると仮定して処理を進めます。これは、Windowsにおけるデフォルトの変換テーブルがcp932であるためです。cp932の利用を推奨するものではありません。(更に言えば、上記のいずれの変換テーブルの利用を推奨するものでもありません)。

設定上の注意

 変換テーブル(*.txt)は、実行ファイルと同じディレクトリに置いて下さい。

カスタマイズ

 自分で新しい変換テーブルを追加できます。

シフトJISベースの場合:

 US-ASCIIのテキストファイルを作成します。

 最初の1行には、

Shift_JIS

 と記述します。

 2行目以降は、16進表記のシフトJISコード+TAB+16進表記のUnicodeコードを記述します。

例:

0x400x0040

EUC-JPベースの場合:

 先頭の1行は

EUC-JP

 です。その他はシフトJISと同じです。

ISO-2022-JPベースの場合:

 先頭の1行は

ISO-2022-JP

 です。

 2行目には、変換に利用するシフトJISまたはEUC-JPのエンコーディング名を記述します。つまり、ISO-2022-JP単体で変換テーブルを作ることはできません。

 以上のファイルをtconv.exeと同じディレクトリに置くと、そのファイル名のタイトルがエンコーディング名として認識されます。

例:

c:\bin\myencoding.txt

 なら

myencoding

 がエンコーディング名になります。

添付ファイル

ファイル名 説明
tconv.exe 実行ファイル本体
tconv.txt 説明テキスト
tconv.cpp

stdafx.cpp

stdafx.h

tconv.dsp

tconv.dsw
ソースコード
x-eucjp-jisx0221-1995.txt

x-eucjp-open-19970715-0201.txt

x-eucjp-open-19970715-ascii.txt

x-eucjp-open-19970715-ms.txt

x-eucjp-unicode-0.9.txt

x-iso2022jp-19970715-ascii.txt

x-iso2022jp-cp932.txt

x-iso2022jp-jdk1.1.7.txt

x-iso2022jp-jisx0221-1995.txt

x-iso2022jp-unicode-0.9.txt

x-sjis-cp932.txt

x-sjis-jdk1.1.7.txt

x-sjis-jisx0221-1995.txt

x-sjis-unicode-0.9.txt
変換テーブル(tconv.exeと同じディレクトリに必用)

連絡先

tconv "Text Encoding Converter with XML support" Version 0.5に関するお問い合わせはautumn@piedey.co.jpへお願いします。

本ソフトウェアは、 NT-Toolsメーリングリスト にてサポートを行っています。質問などは、なるべくこちらのメーリングリストにお寄せ下さい。

ダウンロード

tconv "Text Encoding Converter with XML support" Version 0.5をダウンロードする。

変更履歴

日付 Ver. 説明
2008年1月18日 ***0.9***

ISO-2022-JPが2バイト文字のモードで終了したときにUS-ASCIIに戻すエスケープシーケンスを追加

2000年5月5日 ***0.8***

 Windows 95/98対応

2000年4月15日 ***0.7***

 -l, -d追加。UTF-32など多数追加。UTF-16LE/BEはRFC 2781が決定したことを受けて、それに合わせ、BOM無しに変更。これを使用している場合は互換性に注意。

1999年7月22日 ***0.6***

 -eと-rを追加。変換テーブルにus-asciiを追加。

1999年7月20日 ***0.5***

Version 0.4の不備を直すと言いつつ、内容一新の大改造。

1999年6月19日 ***0.4***

 仕様を一新。E-Mailモードのみサポートの暫定公開。

1999年4月9日 ***0.3***

 自動検出したエンコーディング名で、入力エンコーディングを上書きしない。

1999年3月24日 ***0.2***

 パラメータのエンコーディング名に-が落ちていたのを修正。

1999年3月22日 ***0.1***

最初の版


tconv "Text Encoding Converter with XML support"のバージョン一覧ページに戻る

ダウンロードのトップページへ戻る


このドキュメントは2011年11月20日 17:32:37に、OSDMシステムにより自動生成されました。


PIEDEY LINK BANNER
本サイトに関するお問い合わせ先: webmaster@piedey.co.jp
ソフトウェアに関するお問い合わせ先: support@piedey.co.jp
作成: 株式会社ピーデー・川俣 晶/autumn@piedey.co.jp