訂正 2022-10-04:15:37 (PDT)
念のため、コピペを試したところ、混入は直っていませんでした。すみません。一括修正方法をご存じの方、ご教示下さい。
問題
記事の通りです。
日本語テクストをPDFから抜き出すなどの処理をしていると、しばしば、日本語非対応(中国語?)フォントが大量に混じったファイルがあって、途方に暮れることがありますよね(ない!?)
何を言っているかわからない人は、以下の画像を見て下さい。
游明朝で表記した文は、上も下も、人間の目にはまったく一緒のように見えます。
しかし、コンピューターにとってはまったく別の字として扱われています。
創英角ポップ体で表記すると、大・生・力がうまくポップ体になっておらず、この3つは日本語の通常フォントに対応していない漢字が使われていることがわかります。
実際、検索しても、二文目の大・生・力はヒットしません。
Radical なんとか
たとえば非対応の「大」ですが、、ググると、「kangxi radical big (U+2F24)」という字らしいですね。意味はぜんぜんわかりませんが。 ⼤ | kangxi radical big (U+2F24) @ Graphemica
これ、単なるコピペでは日本語フォント対応に変換されないので、「非対応フォント検知→一括置換」という地獄のような手作業をやっていました。
解決策
しかし、今日、簡単に一括変換される方法を見つけました。
- 游明朝で表記した場合 日本語フォント漢字のみ: 大学生のコミュニケーション能力 非対応フォント漢字混入: ⼤学⽣のコミュニケーション能⼒ - 創英角ポップ体で表記した場合 日本語フォント漢字のみ: 大学生のコミュニケーション能力 非対応フォント漢字混入: ⼤学⽣のコミュニケーション能⼒
まさに、このはてなブログを書いていて発見しました。
正確には、編集フォームにペーストした瞬間に日本語通常フォント対応になります。メカニズムはさっぱりわかりませんが。
*1:正確に言えば、ウェブフォームなら大体いけるようです。ただし、アドレスバーではダメでした。なぜ・・・。