Ілюстрована Історія України Михайла Грушевського в FB2

Нові коментарі

Нова тема   Відповісти
Автор Повідомлення
volodya327 
Новенький


З нами з: 20.11.09
Востаннє: 25.11.16
Повідомлень: 18

2012-09-30 00:14  
Вітаю Шановне Панство,

Не знайшовши в Інтернеті електронної версії Ілюстрованої історії України Михайла Грушевського в FB2, я вирішив, що треба її створити.
Це важливо, бо це український погляд на українську історію.
Я був щасливий, коли знайшов у нас на сайті PDF версію видання 1921 року.
Але це скан книги - набір зображень сторінок, а не електронний текст.
Він дуже великий за розміром (63,6 МБ) і сучасні електронні книги не можуть його відкрити.

Я хочу створити книгу в сучасному форматі FB2, який дозволяє компонувати текст з ілюстраціями, створювати зміст, виноски, переходити на розділи книги по змісту і т.ін.
Формат FB2 підтримується всіма сучасними електронними книгами і є досить компактним.
Я прогнав PDF документ через розпізнавач українського тексту. Текст розпізнався в цілому гарно.
Його залишилось вичитати та підправити відповідно до оригіналу.
Особливість цієї роботи полягає в тому, що мова Михайла Грушевського дещо відрізняється від сучасної.
Я хочу створити електронний документ максимально близький до оригіналу. Тому доведеться звіряти напис, буквально, кожного слова з документом PDF.
Ця робота досить кропітка і тривала, одному не подолати. Тому я прошу допомоги в нашої інтернет спільноти.

Я самостійно працював над частинами 1-2. Вже їх завершую.
Потрібна допомога із розділами 3-6 та ілюстраціями.
Для того, щоб можна було оцінити результат, який ми скоро отримаємо, я викладаю ще незавершену книгу в FB2 в архіві з текстовими файлами. Як приклад.

----Редагування тексту-----
Для зручності гуртової роботи, я розподілив текст на частини (по номерам розділів самої книги) та зберіг кожну частину в окремому файлі. Кожен файл/розділ містить приблизно 2 сторінки тексту.
Я прошу:
1. скачати оригінал книги в PDF тут: https://toloka.to/t16687
2. подивитися на список файлів і вибрати вільний.
3. скачати архів з текстовими файлами та написати мені в форумі про те, що ви взяли файл з такою-то назвою в роботу. Я позначу його в основному повідомленні як зайнятий вами. Бажано повідомити також орієнтовну дату, коли ви завершите редагування свого файлу.
4. Ретельно звірити написання кожного слова з оригіналом в PDF та виправити невірний текст.
5. Після завершення редагування файлу, надішліть мені його, будь ласка, на адресу: [email protected]
6. Я зміню статус вашого файлу з "в роботі" на "завершено" і включу його текст в документ FB2.

----Редагування ілюстрацій-----
Також я потребую допомоги в створенні якісних зображень ілюстрацій книги.
Потрібні навички роботи з ФотоШопом для:
1. обрізки ілюстрацій з PDF
2. коригування балансу білого, чіткості та контрастності зображення
3. збереження вашої роботи в одному з форматів без втрат якості (наприклад, TIFF) на ваший вибір. Ім'я файлу - номер ілюстрації в книзі.
4. збереження ілюстрації в потрібному форматі (для фото - JPEG, для малюнків, мап та чорно-білих зображень - PNG). Питання щодо форматів я готовий обговорювати. Пропонуйте.
5. Після завершення редагування ілюстрації, надішліть мені її, будь ласка, на адресу: [email protected]
6. Я зміню статус вашої ілюстрації з "в роботі" на "завершено" і включу її в документ FB2.

Після завершення редагування, я зведу всі розділи та ілюстрації в єдиний документ і викладу тут на форумі для фінального читання. Можливо, будуть проміжні версії. Як забажаємо.

Я маю на меті в фінальному релізі документа в розділі FB2-history вказати імена всіх Гуртомівців, які долучилися до створення цього важливого документу.
Ми повинні це зробити. Наша історія потрібна нам і нашим дітям. Все, що зроблено та викладено в електронному вигляді в Інтернет, стає легко доступним. І так просто не зникне.
Я вірю, що Гуртом, ми це зробимо !

------- відредаговано 30.09.2012 --------
Упс... Прямий лінк на Чернетку FB2 (та текстові файли для читання і редагування) вказати тут забороняють правила торента. Сповіщу його кожному особисто. Листуйте мені на E-Mail або через Приватні Повідомлення.
volodya327 
Новенький


З нами з: 20.11.09
Востаннє: 25.11.16
Повідомлень: 18

2012-09-30 00:24  
Розділи книги для редагування (без коментарів - вільні):

3-43.txt
3-44.txt
3-45.txt
3-46.txt
3-47.txt
3-48.txt
3-49.txt
3-50.txt
3-51.txt
3-52.txt
3-53.txt
3-54.txt
3-55.txt
3-56.txt
3-57.txt
3-58.txt
3-59.txt
3-60.txt
3-61.txt
3-62.txt
3-63.txt
3-64.txt

4-65.txt
4-66.txt
4-67.txt
4-68.txt
4-69.txt
4-70.txt
4-71.txt
4-72.txt
4-73.txt
4-74.txt
4-75.txt
4-76.txt
4-77.txt
4-78.txt
4-79.txt
4-80.txt
4-81.txt
4-82.txt
4-83.txt
4-84.txt
4-85.txt
4-86.txt
4-87.txt
4-88.txt
4-89.txt
4-90.txt
4-91.txt
4-92.txt
4-93.txt
4-94.txt
4-95.txt
4-96.txt
4-97.txt

5-101.txt
5-102.txt
5-103.txt
5-104.txt
5-105.txt
5-106.txt
5-107.txt
5-108.txt
5-109.txt
5-110.txt
5-111.txt
5-112.txt
5-113.txt
5-114.txt
5-98.txt
5-99_100.txt

6-115.txt
6-116.txt
6-117.txt
6-118.txt
6-119.txt
6-120.txt
6-121.txt
6-122.txt
6-123.txt
6-124.txt
6-125.txt
6-126.txt
6-127.txt
6-128.txt
6-129.txt
6-130.txt
6-131.txt
6-132.txt
6-133.txt
6-134.txt
6-135.txt
6-136.txt
6-137.txt
6-138.txt
taras1994 
Почесний оцифрувальник літератури


З нами з: 23.03.12
Востаннє: 30.11.16
Повідомлень: 5096

2012-09-30 12:05  
подивлюся файл, тоді скажу що можна зробити.
gnommak 
VIP


З нами з: 20.10.07
Востаннє: 23.10.17
Повідомлень: 1951

2012-09-30 12:11  
volodya327 написано:
Чернетка FB2 та текстові файли для читання і редагування можна скачати тут:

Хочу нагадати, що за правилами трекеру заборонено:
Цитата:
2.10 Публікувати відкриті і приховані посилання в дописі і підписі на
- файлообмінники, варезники, фтп та сторонні торрент-трекери, онлайн-бібліотеки, соціальні мережі,
- сайти, що містять еротичний та порнографічний контент,
- сайти, що містять заклики до насильства, расової, релігійної чи національної нетерпимості, порушення норм і правил загальнолюдської моралі.

Для цього в нас є спеціальний розділ "Сирий матеріал", тож попрошу прибрати посилання і створити роздачу в тому розділі, або давати посилання через ПП.
taras1994 
Почесний оцифрувальник літератури


З нами з: 23.03.12
Востаннє: 30.11.16
Повідомлень: 5096

2012-09-30 20:56  
є краща пропозиція, я завантажив файл Ілюстрована Історія України Михайла Грушевського в pdf . Я подивлюся щоб всі зображення були збережені, і розпізнаю текст(з попереднім виділенням невпенено розпізнаних символів), і відправлю тобі цей проект файн рідера, там ти зможеш одночасно бачити оригінальне зображення та розпізнаний текст.

Таким чином не потрібно буде знаходити десятки людей та координувати їхню роботу. Ти перечитаєш книжку сам в файнрідері та виправиш помилки, допущені файн рідером.

Такий варіант підходить?

Займатимуся виділенням зон. Але це буде тривати декілька днів.
volodya327 
Новенький


З нами з: 20.11.09
Востаннє: 25.11.16
Повідомлень: 18

2012-09-30 21:29  
Друже, те, що ти плануєш зробити, я вже зробив. Роспізнавав також ФайнРідером. Ця частина - автоматична і сама проста.
Проблема в тому, що треба не просто прочитати 600 сторінок і виправити їх, а перевірити написання кожного слова. Бо, як я вже писав, граматика часів Грушевського відрізняється від сучасної.
Я пробував робити це один. Процес іде дуже повільно.
taras1994 
Почесний оцифрувальник літератури


З нами з: 23.03.12
Востаннє: 30.11.16
Повідомлень: 5096

2012-09-30 23:40  
і ти всі зображення виділив у проекті файн рідера?

Додано через 52 секунди:

а також ти пробував позначати невпенено розпізнані символи?
volodya327 
Новенький


З нами з: 20.11.09
Востаннє: 25.11.16
Повідомлень: 18

2012-10-01 12:38  
Твої запитання, Тарасе, змушують мене думати, що я непрофесійно роспізнав текст. Мабуть, воно так і є. Досвіду роботи з ФайнРідером маю небагато.
Тому, я не відмовляюся від твоєї допомоги. Спробуй роспізнати і отримати з документа PDF максимальну точність розпізнавання.

Але якість поліграфії тих часів (та наявність великої кількості помилок в типографському тексті) говорить про те, що, навіть при трохи кращому розпізнаванні, нам не уникнути візуального контролю тексту вручну. Якщо ми прагнемо якості. А я цього прагну, бо те, як воно зараз буде зроблене, так і піде поширюватись інтернетом. Ніхто переробляти вже не буде.

Зображення, які є в моєму FB2 я "викусував" вручну. Те, що ФайнРідер зробив автоматично, виглядає жалюгідно. Думаю, без серьйозної роботи над ілюстраціями не обійтися. Хоча б тому, що багато зображень-фото дуже темні. Розрізнити деталі - важко. Але при "чаклуванні" над фото, можна витягнути багато цікавих деталів, які в зображенні є. Це просто вади типографської технології тих часів.

Також я не вмію створювати роздачі. Сподіваюсь на твою допомогу, коли нам вже буде що роздавати.
Я зараз прикладаю чимало зусиль для того, що довести до ладу хоча б перші дві частини книги. Мені допомагав мій друг із першою частиною. Вичитав її, але з оригіналом не звіряв. Тож, осучаснений напис слів, який зробив ФайнРідер, мій друг пропустив. А це не годиться. Треба першу частину вичитувати знову, звіряючись постійно з PDF. Марудно і довго, але я іншого шляху не бачу.
taras1994 
Почесний оцифрувальник літератури


З нами з: 23.03.12
Востаннє: 30.11.16
Повідомлень: 5096

2012-10-01 19:33  
volodya327 написано:
без серьйозної роботи над ілюстраціями не обійтися

1.серйозна робота на фотографіями ? На мою димку найкраще буде їх залишити без змін.
2.текст в книжці погано зберігся, тому краще виділяти невпевнено розпізнані символи, щоб помилки бачити зразу.
3. Тримати всі зображення та текст краще в файнрідері, якщо потрібно редагувати текст та порівнювати його з оригіналом.

Як я бачу вирішення проблеми.
1. Ти не вичитав жодної частини книжки.
2. Координувати роботу використовуючи файнрідер неможливо
3. Інші варіанти вичитування вважаю неефективними.

Висновок: Мені робити проект файнрідера?
volodya327 
Новенький


З нами з: 20.11.09
Востаннє: 25.11.16
Повідомлень: 18

2012-10-01 21:06  
Дякую, Тарасе, за спробу допомогти. На жаль, вирішити проблему программно, натиснувши пару кнопок не вийде.
Щож, буду поки що сам вичитувати перші дві частини "неефективним" ручним способом, сподіваючись, що згодом знайдеться кілька "маньяків", які захочуть мені трохи підсобити.
taras1994 
Почесний оцифрувальник літератури


З нами з: 23.03.12
Востаннє: 30.11.16
Повідомлень: 5096

2012-10-01 23:20  
volodya327 написано:
натиснувши пару кнопок не вийде.

натиснувши декілька сотень разів мишкою, можна буде виділити всі зображення, та також виставити виділення невпевнено розпізнаних символів, тоді можна буде читати тільки слова які погано розпізналися, а так набагато краще вичитувати ніж , вишуковувати помилку на всій сторінці.

Висновк: то мені виділяти зображення та розпізнавати текст, для проекту файнрідера, в якому вичитувати буде зручніше, бо поруч буде оригінальне зображення та розпізнаний текст в якому буде виділено помилки?
ssTAss 
Модератор музики


З нами з: 05.07.08
Востаннє: 23.10.17
Повідомлень: 12129

2012-10-02 01:30  
taras1994
в мене склалось враження, що Ви ніколи не чули (не бачили) мови того часу
може досить з непотрібними пропозиціями?
є чітка умова (вимога), яку автор одразу написав.. не можете допомогти - краще не пишіть нічого
taras1994 
Почесний оцифрувальник літератури


З нами з: 23.03.12
Востаннє: 30.11.16
Повідомлень: 5096

2012-10-02 12:09  
ssTAss написано:

в мене склалось враження, що Ви ніколи не чули (не бачили) мови того часу
може досить з непотрібними пропозиціями?
є чітка умова (вимога), яку автор одразу написав.. не можете допомогти - краще не пишіть нічого

на жаль допомогти не можу.
Ваш часовий пояс: GMT + 2 Години

Нова тема   Відповісти