【#も読】Unicodeにおける合字 / Wiiでブログをホスト / Pythonのwith文 / QEMU 10.0リリース(@shunsock)のトップ画像

【#も読】Unicodeにおける合字 / Wiiでブログをホスト / Pythonのwith文 / QEMU 10.0リリース(@shunsock)

投稿日時:
しゅんそくのアイコン

ファインディ株式会社 / データエンジニア

しゅんそく

Xアカウントリンク

「あの人も読んでる」略して「も読」。さまざまな寄稿者が最近気になった情報や話題をシェアする企画です。他のテックな人たちがどんな情報を追っているのか、ちょっと覗いてみませんか?


Unicodeにおける合字について

Linus Torvalds Expresses His Hatred For Case-Insensitive File-Systems

LinuxはMacOSと異なり、文字を物理的に区別する特徴があります。例えば、MacOSのファイルシステムは大文字と小文字を区別しませんが、Linuxは区別します。

Torvalds氏が述べるように文字コードの扱いは、バグやセキュリティの問題を引き起こす可能性もあるため重要です。

今回触れられていたのは、Unicodeにおける合字についてです。合字とは、2つ以上のCode Pointを組み合わせて1つの文字として扱うことを指します。

身近な例としては、日本語の平仮名や片仮名に濁点や半濁点を付けるケースがあります。例えば、「か」と「゛」を組み合わせて「が」を作ることができます。また、最近だと絵文字の合字もあります。

OSの仕事のように、セキュリティに重大な影響を与えるものでなくても、これは気をつけるべき仕様です。実際筆者は、過去にインターネットから取得したテキスト情報を元に機械学習を行う際に、Unicodeの合字を考慮せずに処理してしまい、出力結果が意図しないものになってしまったことがあります。

Unicodeでは他にも旧字体、新字体対応など落し穴があります。ユーザー入力が可能なソフトウェアでは、Unicodeの仕様を考慮しながら開発を進めるべきでしょう。

Nintendo Wiiでブログをホストする猛者あらわる

This blog is hosted on a Nintendo Wii

表題の時点でおかしいですが、Nintendo Wiiでブログをホストしている猛者が現れました。技術スタック的には、NetBSD on Wii + lighthttpd + caddy (reverse proxy) + Hugo (static site generator) という構成です。

この記事のつづきを読もう
新規登録/ログインしたらできること
  • すべての記事を制限なく閲覧可能
  • 限定イベントに参加できます
  • GitHub連携でスキルを可視化
ログイン
アカウントをお持ちでない方はこちらから新規登録