The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



Индекс форумов
Составление сообщения

Исходное сообщение
"Выпуск каталогизатора домашней библиотеки MyLibrary 3.0"
Отправлено ProfessorNavigator, 28-Фев-24 14:23 
> Ну вот, докопались до правообладателей. Они может и вымрут, но контроля над
> этим у нас с вами нет.

На самом деле есть, но это опять же отдельный разговор.

>[оверквотинг удален]
> напоролись вы в _реальной_ книжке на некую проблему - крокозябра в
> имени файла не читается, например. Вы ее сейчас, открыв дебагер, находите
> и фиксите - это занимает полчаса, к примеру. Если в этом
> месте (когда у вас все в голове, это важно!) добавить еще
> 5 минут на то, чтобы из ничего и _под своим копирайтом_
> создать тестовую _не книжку_ которая ведет себя по отношению к программе
> так же - вы получившийся тест можете спокойно публиковать. Со временем
> набор тестов будет расти, но прогонять код по ним каждый раз
> будет в разы быстрее, чем по реальной библиотеке. В итоге эти
> 5 минут инвестированного времени сейчас окупятся в вашем проекте вдолгую.

Мысль здравая. Но есть пара "но". Во-первых, никто не гарантирует, что вы сами при создании тестов ошибок в формате не наделаете. Скажем, fb2 - это ещё нормально (есть вполне читаемая xsd схема формата https://github.com/gribuser/fb2/tree/master). С epub же - там всё сложно. В плане документации. На первый взгляд она очень подробная, только вот пользоваться ей непросто. Потому что писали её, на мой взгляд, ... не очень умный человек. Или юрист. У которого цель была не формат описать, а отмазаться ото всех мыслимых и немыслимых претензий. Цели он достиг, только вот для реального использования результат мало подходит.

Во-вторых, сами пользователи и программисты. Моя фантазия пасует перед их "изобретательностью". MyLibrary например пытается определить кодировку текста тремя различными способами. Первый - прочитать из заголовка xml. Второй - определить средствами icu по содержимому всего текста. Третий - опять же средствами icu попытаться определить кодировку текста каждой читаемой строки (точнее - xml тега) индивидуально. Включаются они последовательно, если результат предыдущего - неудовлетворительный. И тем не менее, на 500000 книг нашлось штук двадцать, где кодировку определить так и не удалось. А ведь есть ещё Windows, где программисты любят использовать для нелатинских алфавитов wchar_t (и для этого пришлось отдельно извращаться, потому что бОльшая часть нормальных людей сохраняет всё через обычный char). Или есть вообще уникумы, которые в fb2 засовывают текст в т.н. формате "html". Это когда символы записываются в виде "&#<номер_символа_в_юникоде>". Хотя это вообще ни в каких стандартах толком не прописано. У меня целый день ушёл на то, чтобы понять что это вообще такое, и как его читать. А внятного описания этого формата я так нигде и не нашёл - просто догадался.

В-третьих, форматы со временем менялись, а в библиотеках до сих пор встречаются все варианты, в том числе устаревшие.

На фоне всего этого проще собирать реальные проблемные файлы, чем пытаться создать свою синтетику, в которой сам же ошибок наделаешь, а потом будешь с ними героически бороться. Если же вам нужны тесты - скачайте например полный архив Флибусты. Там на любой вкус и цвет, и даже так, как вы никогда не догадаетесь сделать))


 

Ваше сообщение
Имя*:
EMail:
Для отправки ответов на email укажите знак ! перед адресом, например, !user@host.ru (!! - не показывать email).
Более тонкая настройка отправки ответов производится в профиле зарегистрированного участника форума.
Заголовок*:
Сообщение*:
  Введите код, изображенный на картинке: КОД
 
При общении не допускается: неуважительное отношение к собеседнику, хамство, унизительное обращение, ненормативная лексика, переход на личности, агрессивное поведение, обесценивание собеседника, провоцирование флейма голословными и заведомо ложными заявлениями. Не отвечайте на сообщения, явно нарушающие правила - удаляются не только сами нарушения, но и все ответы на них. Лог модерирования.



Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру