Unicodeに何でも詰め込んだった結果www
いや草生やしてもしょうがないのだが。
きっかけはぐぐる地図APIでこんな住所を検索しようとしたことだった。
「大阪府堺市堺区香ケ丘町(以下略)」*1
……ところが、なぜか住所解決できない。
なんで?とエラーログを見ると「大」と「香」が豆腐。どういうことなの……
なんでも「大」がU+2F24、「香」はU+2FB9だそうなので調べてみると、正体はUnicodeの「Kangxi Radical」領域の文字。「康熙字典の部首」ということらしい。
この住所某お役所の公開サービスから拾ってきたものなのだが、察するにOCRで読み取って目視確認してそのままDBへInしたお、ということなのだろう。
IEのテキストボックスやWord・Excelに入力すると見た目にはちゃんと見える(よーく目を凝らすと、この2文字だけなんか妙にぼけて見えるが)から、環境によっては気が付かなかった可能性が高い。
OCRはどんな用途に使われるか分からんのだから、勝手に特定の文字カテゴリを除外するわけにもいくまい。
こんな見分けづらいものを人の目で見分けられなくてもそれはしょうがない。
……誰に責めを負わすわけにもいかんのだが、とは言えどーにかならんかったものかなあorz