ISO/IEC 10646(≒Unicode)でなぜ「ゴミ文字」が増えていくのか? - Togetter
Twitterのつぶやきマッシュアップメディア!
@togetter_jpをフォロー
マイページ
メニュー
設定
ログイン
トップ
ニュース
社会
地域
芸能・スポーツ
IT・Web
科学・教養
カルチャー
趣味
生活
仕事
ネタ・お笑い
ログ・日記
震災
311
援助
原発
三国志
復興
放射能
生活保護
速報
国内
アジア
アメリカ
ヨーロッパ
その他
政治
経済
国際
法律
環境
コラム
東京
東京近郊
北海道
東北
関東
北陸・信越
東海
近畿
中国・四国
九州・沖縄
海外
芸能
テレビ
ラジオ
野球
サッカー
ゴルフ
格闘技
競馬
モータースポーツ
その他
Android
Apple
インターネット
パソコン
モバイル
ガジェット
サイト制作
プログラミング
その他
科学
テクノロジー
エネルギー
数学
物理
宇宙
自然
人文
建築
心理
その他
アニメ
ゲーム
マンガ
アイドル
映画
音楽
書籍
演劇
ファッション
社会学
カメラ
車・バイク
電車
旅行
釣り
歴史
アート
デザイン
動物
その他
ハウツー
レシピ
グルメ
恋愛
マネー
節約
健康・医療
教育
ペット
起業・ベンチャー
経営
マーケティング
会計・人事
法務
就職・転職
語学・資格
ネタ
お笑い
大喜利
画像・動画
やってみた
その他
ログ
日記
思い出
雑談
メモ
飲み会
議事録
イベント
セミナー
復興
原発
支援
政府
自治体
トップ
>
トップ
>
311
> ISO/IEC 10646(≒Unicode)..
2010/04/29 00:05:23
文字コード
絵文字
unicode
emoji
文字
国際標準
+
ISO/IEC 10646(≒Unicode)でなぜ「ゴミ文字」が増えていくのか?
まとめました。
by
ogwata
16 fav
3009 view
Fav
16
お気に入りに登録ならここをクリック!
まとめ
メニューを開く
一括削除
日本の携帯絵文字を収録する国際会議に出席した話のつづき。この件は書こうか迷ったけど、書いておこう。ISO/IEC 10646(≒Unicode)で構造的に「ゴミ」文字が増えていく件。おかしな点があればぜひご指摘ください。
返信する
RTする
ふぁぼる
ogwata
2010/04/25 23:46:39
一昨日のツィートで、WG 2会議は「対立を前提とした共同作業」だと書いた。自分が通したい主張を相手に呑ませるため、可能な限り妥協する。「ISO/IEC 10646のより良い改訂」という目的から、妥協は美徳とされる。互いに妥協しながら落し所を探る。これがWG 2会議の流儀だった。
返信する
RTする
ふぁぼる
ogwata
2010/04/25 23:52:40
これは美点ばかりではない、というお話です。
返信する
RTする
ふぁぼる
ogwata
2010/04/25 23:54:58
今回ISO/IEC 10646の追補8原案に提案された「emoji」は725文字。このうち日本の携帯絵文字は674字。その差は51文字で、これは何かというとアイルランドが独自に調査し新規追加提案した文字。これらは日本の携帯絵文字と一切関係がない。
返信する
RTする
ふぁぼる
ogwata
2010/04/26 00:01:40
アイルランド代表は独自に調査し、これらの少なくない文字を提案してきた。たとえばガイドブックを由来とする「シャワー」の絵文字とか、英文の麻雀入門由来の「西風」を意味する絵文字とか。
返信する
RTする
ふぁぼる
ogwata
2010/04/26 00:04:26
ベトナムの十二支に由来する水牛、ヤギ、ペルシャの十二支のクジラ、ワニなんてのもあった。これらアイルランドが提案した追加絵文字の全てとは言わないが、典拠に疑問がある字が多いと言わざるを得ない。そして知る限り典拠に疑問があることは多くの人が認識していた。では、なぜ提案は通ったか?
返信する
RTする
ふぁぼる
ogwata
2010/04/26 00:15:45
それは「自分の主張を通すために妥協した」からです。前述した通り、ISOやIECの会議では、投票ではなく全員一致で決める(委員会段階の話)。アイルランドの賛成を取り付けるため、彼の提案を呑んだということ。では、なんで会議で典拠について大きな問題にならなかったのか?
返信する
RTする
ふぁぼる
ogwata
2010/04/26 00:27:09
自分自身について言えば(いささかの懺悔もこめて言うのだが)「自分の提案を通すため」。もしも会議でアイルランドの典拠について疑義を呈すれば大議論になり、結果として自分達の提案に飛び火して否認されたかもしれない。通訳を介してそこまで議論する気になれなかったというのもありました。
返信する
RTする
ふぁぼる
ogwata
2010/04/26 00:35:17
ここでちょっと不思議なのは、ぼくだけでなく他の全員が典拠について疑問を口にしなかったこと。少なくとも日本とアメリカの一部は、アイルランドの新規追加のうち顔文字に関しては疑問をもっていたと理解している。でも、それは結局のところ議論すらされなかった。
返信する
RTする
ふぁぼる
ogwata
2010/04/26 00:39:02
ここでISO/IEC 10646の規格原文にあたってみよう。その和訳JISであるJIS X 0221をみると箇条14で実装水準というのを規定している。これの意味するところは「収録文字の全部でなく部分的に実装してよい」ということ。これは7ビット8ビット系の規格にはない特徴だと思う。
返信する
RTする
ふぁぼる
ogwata
2010/04/26 00:43:16
ISO/IEC 10646(≒Unicode)は全部で数十億文字が符号化可能。それを全部実装することなど夢物語。だからこそ実装水準を規定して部分実装を許している。これはASCII(7ビット/128文字)やISO/IEC 8859-1(8ビット/256文字)にはない考え方。
返信する
RTする
ふぁぼる
ogwata
2010/04/26 00:47:38
しかし、この実装水準は負の側面を持つ。全部実装しなくてよいという規定、だったら少しくらいヘンな文字が混じってもいいだろうという意識を生む。直接聞いたわけではないが、アイルランド提案について典拠の議論がなかったのは、これが原因ではないか。まあ、あくまで個人的推測ですが。
返信する
RTする
ふぁぼる
ogwata
2010/04/26 00:50:40
@ogwata
ISO/IEC 2022にも部分実装を推奨する規定がありますね
返信する
RTする
ふぁぼる
nalsh
2010/04/26 00:52:53
おっと、ISO/IEC 2022にありましたか。ご指摘感謝。それはG0/G1に配置するレパートリとして? RT
@nalsh
:
@ogwata
ISO/IEC 2022にも部分実装を推奨する規定がありますね
返信する
RTする
ふぁぼる
ogwata
2010/04/26 01:08:02
WG 2会議にかぎらず、ICT分野の公的標準を策定するJTC 1の「憲法」はJTC 1 Directivesとして規定されている。
http://bit.ly/9KiJB6
その12.5.3で委員長は全員の合意を目指すべしとある。しかしこれは一人でも異論を唱えつづけると崩壊する。
返信する
RTする
ふぁぼる
ogwata
2010/04/26 01:16:35
同時にISO/IEC 10646(≒Unicode)は部分実装を許す。その結果、典拠に疑問のある、実装されるかどうか分からない「ゴミ」が増えていく。これはISO/IEC 10646の構造的な問題。そういうお話でした。
返信する
RTする
ふぁぼる
ogwata
2010/04/26 01:19:13
@ogwata
実装水準というのは昔あった文字結合とかの処理をはしょることを許すための話だったような記憶が
返信する
RTする
ふぁぼる
MnjaMnia
2010/04/26 01:21:44
@ogwata
ISO 2022初版の2.3です。なので、レパートリでなくレパートリを納めるための拡張手法ですかね
http://bit.ly/doAhJd
(PDF)
返信する
RTする
ふぁぼる
nalsh
2010/04/26 01:21:58
ゴミが増えていく? それが何の問題なのだという立場もあるでしょう。規格にゴミが入っていても、それは実装しなければよいだけの話。「ゴミ」というのはあくまで相対的な評価であり、時間が経つうち有効な使い方が発見されるものもある。CHISEがIDSを再発見したように。
返信する
RTする
ふぁぼる
ogwata
2010/04/26 01:23:15
@ogwata
計算機科学的には GC があれば良いって話ではあるんですけどね(CHISE でいつかやんなきゃいけないなと思いつつ難しいのでさぼってる問題のひとつ)
返信する
RTする
ふぁぼる
MnjaMnia
2010/04/26 01:24:29
@ogwata
文字符号は形式言語の一種で、ソフトウェアの一種だということですかね?実装とモデルをいったりきたりしながら(時々リファクタリングしつつ)進化して行くようなものというか。
返信する
RTする
ふぁぼる
MnjaMnia
2010/04/26 01:28:38
@MnjaMnia
@nalsh
ISO/IEC 10646と部分実装の話は芝野さんのこのページをご参照。
http://bit.ly/cpulZP
あ、ここにISO/IEC 2022も部分実装ってあるなあ。ところで守岡さん、GCって何?
返信する
RTする
ふぁぼる
ogwata
2010/04/26 01:42:17
おお! 割り切った考え方ww RT
@MnjaMnia
:
@ogwata
文字符号は形式言語の一種で、ソフトウェアの一種だということですかね?実装とモデルをいったりきたりしながら(時々リファクタリングしつつ)進化して行くようなものというか。
返信する
RTする
ふぁぼる
ogwata
2010/04/26 01:43:23
しかし、ぼくにはどうにも「ゴミ」に関して割り切れないんですね。確かに語感ほど問題はないかもしれない。しかし、全員一致の負の遺産として典拠に疑問が増える文字がボロボロ増えていっていいのかなあ? という素朴な疑問です。
返信する
RTする
ふぁぼる
ogwata
2010/04/26 01:45:45
@ogwata
あ、GC というのは Garbage Collector の略です。
返信する
RTする
ふぁぼる
MnjaMnia
2010/04/26 01:55:22
Content from Twitter
残りを読む(26)
ブログへ
iframe版
拡張版
張付けプレビュー
Fav
16
あわせて読みたい
iOS 5 の Unicode 新機能・追加文字(ios5)
アイルランドの追加絵文字提案はなぜ認められたのか
Unicode 6.0に絵文字採用
西村賢さんのPython内部文字コードの話題から端を発するUnicodeの話
OS X Lion は iOS4.x 以前で入力された絵文字を表示出来ない。
powered by Preferred Infrastructure
コメント
コメントを入力してください。
Twitterにも投稿する
みんなのおすすめ商品
商品を編集
おすすめ商品を登録する
設定を変更する
まとめを作成する
プロフィール
フォローする
文字とコンピュータのフリーライター。共著『活字印刷の文化史』、『新常用漢字表の文字論』(共に勉誠出版、2009年)。
ogwata
link
twitter
rss
フォローされている
5
アップデート
まとめ
23
4
css3-text-layout(W3C)におけるウェブ..
52
文字化けの饗宴:スマートフォンにおける厄介な文字の表示実..
99
GALAPAGOSのDRMをめぐるwindhole氏とr..
お気に入り
62
コメント
25
新着のまとめ
一向一揆について
new
茂木健一郎さん連続ツイート第611回
new
茂木健一郎(@kenichiromogi)さん..
new
drsteppenwolf先生の『庭山由紀さん..
new
『ガン&ガール イラストレイテッド 米軍現用銃..
new
もっと見る
@togetter_jp
最近追加された商品
一冊でわかるイラストでわかる図解三国志―地図・写真を駆使 超ビジュアル100テーマ オールカラー..
続 つれづれなるママ本 (バンブーコミックス)
にゃがまさ通信 (バンブーエッセイセレクション)
三國志IX with パワーアップキット
にゃがまさ通信 (バンブーエッセイセレクション)
オススメ
マイスター
トゥギャ通
「放射能汚染地域に住む人の血って、ほしいですか..
中核派が北九州瓦礫受け入れ妨害行為への関与を宣言
「放射能汚染地域に住む人の血って、ほしいですか..
某司法書士が作った珍妙なエコバッグについて
(仮)女子あるあるネタ
up
「個人攻撃はあってはならない」と、全国紙に広告..
up
もっと見る
茂木健一郎(@kenichiromogi)さん..
new
袁紹の用兵の才能と分かり易い『官渡の戦い』
new
タイバニ当落メールが遅い理由を考えてみた まとめ
new
「女川」ツイートまとめメモ 2012/05/3..
new
#最後にハートをつければ何を言ってもかわいい ..
new
《ごみ処理・糞尿汲み取りの都市問題》
new
もっと見る
第80回「日食写真と昭和格差」
号外「みんなの金環日食まとめ―画像から教養ま..
第79回「虚構新聞とJリーグ」
第78回「コンプガチャとIT系かあちゃん」
第77回「びろーんと自宅警備隊」
第76回「Appleとパンツクッキー」
もっと見る
コメント