12. Unicode、絵文字、Androidのテキスト関連のハンドリング、無数の文字トリビア (のな)

Update: 2018-04-01

Description

Androidのテキスト処理を担当しているのなさんと、UnicodeやUnicode絵文字、テキスト処理の複雑さ、文字トリビアなどについて話をしました。

出演者: のな (@ttuusskk)、Rui Ueyama (@rui314)

https://turingcomplete.fm/12

ハッシュタグは#tcfmです。

TCFMはサポーターの投げ銭によって収益を上げています。このコンテンツに課金してもいいよという方はぜひクリエイター支援サイトPatreonから登録してご協力ください。

イントロ (0:00 )

自分の読めない言語のテキスト処理は大変 (1:28 )

MMDDYYYYとDDMMYYYYの違いによる国際化バグ (3:07 )

Left-to-right言語とright-to-left言語 (5:23 )

アラビア語と英語のハイフネーション (6:15 )

日本語の禁則処理 (7:19 )

Android Oで絵文字の表示が最大3倍速くなった (9:12 )

結合絵文字の規格が決まっていない状態で実装を書くのは大変 (12:23 )

国旗の絵文字の仕組みと仕様バグ (14:49 )

ハンバーガー絵文字では肉の上にチーズが乗っているべきか (18:18 )

絵文字はガラケー起源 (20:30 )

モヤイ像の絵文字はあるけどモアイ像の絵文字はない (23:42 )

ガラケーに存在したけどUnicodeに収録されなかった稀な絵文字 (24:52 )

新元号の合成文字 (27:28 )

ひらがなやカタカナはもっと若いコードポイントに割り当ててくれればよかった (30:49 )

UTF-8は新世界のASCII (33:40 )

英語はフォントの機能を比較的ふんだんに使う言語 (38:47 )

汎用的な数式プロセッサをフォントだけで作ることができるかも？ (40:40 )

Unicode規格書の紙バージョン (42:42 )

JISの幽霊文字 (43:41 )

将棋の相手の駒の記号（上下逆の漢字）をUnicodeに追加したい (47:01 )

100万文字は十分か (50:32 )

Unicodeの文字名称の規格バグ (52:12 )

Swiftは文字がgrapheme単位 (53:47 )

Goだとコードポイント単位 (55:21 )

ミャンマーのZawgyiフォントがUnicodeの既存の文字を勝手に使っている (57:50 )

東アジアのコンピュータ用文字セットの歴史的経緯 (1:00:36 )

ハイフネーションは多種多様 (1:03:00 )

最近の多言語処理はコンピュータの金字塔の一つ (1:05:38 )

Android Oでは明朝体が標準で入るかもしれない (1:09:21 )

サブピクセルレンダリング (1:15:20 )

のなさんによる絵文字の解説

Unicode

UTF-8

ハンバーガー絵文字とチーズの位置問題

リガチャー（合字）

ß （エスツェット）

幽霊文字

ビャンビャン麺

Ponanzaのために作られた将棋の相手の駒の外事

チェスの駒のUnicode記号

ドミノタイルのUnicode記号

Unicodeの麻雀牌

Brakcet

モヤイ像（「イースター島のモアイ像に似た日本の石像の絵文字」として定義されている）

Rob PikeによるUTF-8の歴史

Zawgyi font

O'ReillyのCJKV本（フグ本）

キリル文字

モンゴル文字

満洲文字

Notoフォント

明朝体

アンチエイリアシング

サブピクセルレンダリング

ペンタイル

追記

JIS委員会が何の手がかりも得られなかった文字は「妛」ではなく「彁」です。

Comments

In Channel

31. 携帯電話のハッキング、コンピュータサイエンスの論文 (るくす)

2018-10-0101:00:24

30. セルフホストできるCコンパイラの作り方を夏休みの特別授業で教えた話 (hikalium)

2018-09-2301:15:51

29. ユタ・ティーポット、Cコンパイラ開発の授業、中学生時代のOS自作エピソード (hikalium)

2018-08-0101:42:00

28. プログラミング言語のブートストラッピング問題、コードとの互換性を保ちつつ言語を変更していく話 (川合史朗)

2018-07-2401:15:09

27. 歴史の中のコンピュータ: 1946年の電王戦、エニグマ暗号の解読 (うどん)

2018-07-1501:37:14

26. Nintendo Switchのエミュレータでhomebrewアプリを動かす話、サイバーセキュリティと政府機関 (るくす)

2018-07-0801:14:54

25. Chromeのローディングの最適化、脆弱性報奨システム、ブラウザとマイクロカーネル (Kinuko)

2018-07-0101:24:28

24. 細胞内の物質の濃度を測る研究、ヒトゲノム計画、害虫の根絶 (Shiro Kadowaki)

2018-06-2401:24:27

23. マッチングアルゴリズム、不揮発性メモリ、水槽の脳 (hikalium)

2018-06-1701:18:35

22. gVisor（LinuxユーザプログラムとしてLinuxカーネルを実装したサンドボックス）とNoahの話 (ぬるぽへ)

2018-06-1101:38:53

21. 東大CPU実験でRISC-Vプロセッサを自作した話 (高橋祐花)

2018-06-0201:28:19

20. Nintendo Switchのハッキングとコンピュータセキュリティ (るくす)

2018-05-2701:19:13

19. Gauche Schemeのスタックとヒープのハンドリング (川合史朗)

2018-05-2101:42:25

18. セキュキャン、LLVMプロジェクト、コンピュータサイエンスの書籍 (hikalium)

2018-05-1401:23:36

17. Gauche Schemeの基本デザインの選択理由、オブジェクトデータベース、浮動小数点数の落とし穴 (川合史朗)

2018-05-0701:27:56

16. プログラムの静的検証、システムズプログラミングの論文 (うどん)

2018-04-3001:29:31

15. CERNでのソフトウェアエンジニアリング (高橋祐花)

2018-04-2201:18:30

14. 少年時代にPCを（本当の意味で）自作した話 (川合史朗)

2018-04-1601:24:07

13. 自作アセンブラ、リンカの最適化、トリッキーなビット操作の楽しさ、外資系IT企業のコーディング面接対策 (hikalium)

2018-04-0901:28:08

12. Unicode、絵文字、Androidのテキスト関連のハンドリング、無数の文字トリビア (のな)

2018-04-0101:18:05

00:00

12. Unicode、絵文字、Androidのテキスト関連のハンドリング、無数の文字トリビア (のな)

#box-pro-ellipsis-176697924111254{-webkit-line-clamp:2;}12. Unicode、絵文字、Androidのテキスト関連のハンドリング、無数の文字トリビア (のな)

12. Unicode、絵文字、Androidのテキスト関連のハンドリング、無数の文字トリビア (のな)

Rui Ueyama

12. Unicode、絵文字、Androidのテキスト関連のハンドリング、無数の文字トリビア (のな)