文字コードは UTF-8 でいいんですよね? そもそも UTF-8 の外字は必ずしも4バイトではありません。 むしろ3バイトの可能性の方が高いような気がします(憶測)。 http://ja.wikipedia.org/wiki/%E5%A4%96%E5%AD%97#JIS_X_0221_.28Unicode.EF.BC.89.E3.81.AB.E3.81.8A.E3.81.91.E3.82.8B.E5.A4.96.E5.AD.97 によると、unicode の外字には ・U+E000 ~ U+F8FF ・U+000F0000 ~ U+000FFFFD ・U+00100000 ~ U+0010FFFD の領域が使われるそうです。 それぞれの範囲の最小値と最大値と ぎりぎり範囲外となる文字の UTF-8 の文字コードを見ると、 下記のようになります。 U+DFFF => ED BF BF U+