The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



Индекс форумов
Составление сообщения

Исходное сообщение
"Атака Trojan Source для внедрения изменений в код, незаметны..."
Отправлено Урри, 05-Ноя-21 13:04 
> Но претензия была не к польскому, а к различию подходов для разных символов.

Я вам только что показал, что подход совершенно одинаковый.

Польское "А" - это латинское "А". У поляков письмо - латиница(!). Поэтому их "А" - это английское "А", немецкое "А", фрацузское "А".

Сербское "А" - это кирилличное "А". У сербов письмо - кириллица(!). Поэтому их "А" - это русское "А", болгарское "А", белорусское "А".

Подход - одинаковый. И правильный.

> По такой логике и кириллическая А это латиница.

Перечитайте то, что я написал выше. Погуглите "кириллица" и "история появления кириллицы". Думайте.

> каждый символ кодировать своим значением, обеспечивая 100% идентификацию каждого символа

Оно так и есть. Кирилличная "А" вне зависимости от языка кодируется как кирилличная "А". И даже если какая-нибудь донская область внезапно объявит себя Донской Республикой со своим, Донским Языком (вернет в язык букву ѣ), всем программистам мира не придется переделывать таблицу юникода.

> и немного упрощая жизнь разработчиков, позволяя например в парсере ограничить русский язык просто фильтруя все что не входит в диапазон русского языка (и для русского в юникоде так и работает, но не для всех языков).

Какого именно русского языка - до реформы 1918 или после? Вы предлагаете менять таблицу кодов под каждое изменение национальных правил, заставляя переписывать все парсеры?
Языки, напомню, развиваются. В них появляются и исчезают даже буквы (украинцы вернули букву ґ, например - совершенно непонятно зачем, но закон есть закон). Теперь что, всю украинскую кодировку после "г" сдвигать и все переписывать? А как насчет русской "ё", которая то есть, то нет (гляньте на википедии, там статья почти как война и мир по размеру)?

И, в конце-концов, вам так сложно в парсере сделать бинарный поиск по собственной таблице допустимых национальных символов? Это будет почти так же быстро, как и проверка x <= y <= z,

У меня парсер, например, так и делает. Он даже умеет приводить буквы любого языка из нижнего в верхний регистр - когда выходит обновление таблицы юникода, куда включают новые языки (или меняют правила для уже существующих) я запускаю скрипт, который парсит последнюю редакцию CaseFolding.txt из https://www.unicode.org/Public/ и генерирует мне простую табличку, сложность поиска по которой составляет log(n).

>> Вы путаете понятия character и letter. Вы путаете понятия "кодирование" и "кодировка".
> Уход от ответа.

Слив засчитан. Будем считать, что вы поняли ошибку но решили ее просто замять, ибо слишком позорно.

> коллизии повышения и понижения регистра когда символ из одного алфавита после смены регистра становится ДРУГИМ символом и обратно его не восстановить!

Это особенности естественных языков. Юникод им только следует, не более того.
Да, греческую "ᾙ" действительно можно приводить либо к "ᾑ" либо к "ἡι" - это особенности правописания. И эти особенности отражены в юникоде.

Так что, теперь еще человеческие языки переделывать, вот прям с Плутарха начиная? Для вашего удобства?
Ого как замахнулись.

>> https://en.wikipedia.org/wiki/GNU_Unifont - 60691 глиф.
> Но он только для части юникода.

Вы на английском читать не умеете? Ну тогда понятно откуда такое желание все взять и переделать.
Цитирую:

The Unicode Basic Multilingual Plane covers 216 (65,536) code points. Of this number, 2,048 are reserved for special use as UTF-16 surrogate pairs and 6,400 are reserved for private use. This leaves 57,088 code points to which glyphs can be assigned. Some of these code points are special values that do not have an assigned glyph, but most do have assigned glyphs.

GNU Unifont покрывает ВСЕ ваши потребности в юникоде, причем с запасом. 60691 глифов против 57088 предлагаемых.

> сам стандарт совершенно не переусложнен

Стандарт прост как два байта. Что может быть проще таблицы всех человеческих букв/рун/символов письма?

> каждый второй студент знает его наизусть как ASCII

Я уверен, 999999 ил 1000000 тысяч студентов не скажут код буквы "ё" в любой из кириллических кодировок. Да даже код ETX или SYN из ASCII не скажут, как и вы.

Так что даже тут вы, мягко говоря, облажались.

--
На этом, надеюсь, все? Можете сделать выводы из написанного и немножечко дообразоваться? Или будете просто глупо упираться в свои заблеждения, как всегда делают 95% народонаселения.

 

Ваше сообщение
Имя*:
EMail:
Для отправки ответов на email укажите знак ! перед адресом, например, !user@host.ru (!! - не показывать email).
Более тонкая настройка отправки ответов производится в профиле зарегистрированного участника форума.
Заголовок*:
Сообщение*:
  Введите код, изображенный на картинке: КОД
 
При общении не допускается: неуважительное отношение к собеседнику, хамство, унизительное обращение, ненормативная лексика, переход на личности, агрессивное поведение, обесценивание собеседника, провоцирование флейма голословными и заведомо ложными заявлениями. Не отвечайте на сообщения, явно нарушающие правила - удаляются не только сами нарушения, но и все ответы на них. Лог модерирования.



Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру