А я оцифровую ТАК!

Нові коментарі

Нова тема   Відповісти
Автор Повідомлення
cizarion 
Оцифрування книг Гуртом
Оцифрування книг Гуртом


З нами з: 01.01.10
Востаннє: 13.11.17
Повідомлень: 2036

2011-12-25 09:36  
У темі пропоную поділитися власними методиками оцифрування літератури. Можна описати весь процес сканування/фотографування, програмне забезпечення, яке використовується, послідовність використання програм, їх налаштування, ВСЕ-ВСЕ-ВСЕ із оботистої практики.

Ця тема призначена для 2 речей:
1. якщо у певній наведеній методиці будуть присутні кроки, які можна оптимізувати, колеги зможуть підказати, ЯК МОЖНА ЗРОБИТИ КРАЩЕ.
2. якщо у певній методиці будуть МІНІВІДКРИТТЯ, що знадобляться іншим, думаю, всі будуть за них вдячні.

до обговорення запрошую УСІХ без винятку, хто займається / починає займатися оцифруванням книг.
AmerMinx цифрує ТАК:
Ну а в загалом-то, якщо це просто друкована книга без ілюстрацій, чи тільки з чорнобілою графікою, якщо нам не потрібно розпізнавання, чи воно жахливе, якщо ми не будемо додавати зміст, ссилки, штампи чи інщі якісь няшки, то все якось так:

Мінімальна версія:
1. Беремо будь-що - сфоткане, відсканене, скачане, експортоване з книги зробленої кимось криворуким та ще й у пдф... - Навіть із неякісного скану можна зробити якісну книгу.
2. Пакетна обробка у фотошоп за списком дій (Any pic, any dpi -> Покращення -> Bitmap tiff 600 dpi)
3. Різка у СканТейлор
4. Склейка у djvu small (User 600)

Але це ж усим відомо. Ну може окрім фотошопHappy
Нащо він - щоб текст був приємнішим на вигляд. Тому що з пропуском цього етапу результуючі літери мають "погризені" краї або надто тонкі перемички - бо відсічка чорне/біле при бінарізації не звертає увагу на випадкові флуктуації освітлення при зйомці. І тим паче ті, що властиві формату jpeg.

******************

Ну а далі вже ідуть тонкощі комбінування софта, мозку, рук, досвіду та налаштувань на кожному етапі.
Наприклад складемо схему отримання кінцевої книжки:
1. Отримати вхідні дані.
2. Відокремити з них лише корисні (позбутися зайвого).
3. Застосувати деякий стиль форматування (привести до кінцевого вигляду)
4. Перетворити/створити додаткові дані (розпізнавання, зміст ітп)
5. Склеїти все у формат джвю.

З етапом (1), думаю ясно. Все що я можу сказати - напевно всі вже знають. Просто не використовують на практиці і тому не пам'ятають. Але якщо я почну перелічувати - почнуть затверджувати, що це елементарно.
Всі наступні етапи (2)-(5) за своїм змістом - комп'ютерна обробка (а якщо ми щось перепаковуємо - то взагалі всі етапи (1)-(5)). В такому разі чудовою схемою було б:

- вказав програмі папку.
- з'явилась книжка.

Але наша реальність жорстокіша. Набагато. І на виході замість книжки при такому підході з'явиться лише бяка у форматі джвю. А отже десь між процедурами другого етапу потрібен третій:

- контроль проміжних результатів.

*************

Наскільки ж реальне ось таке "трьохетапне" книгобудівництво?
1) Ті хто не зробив жодної книжки: напевно реально
2) Хто зробив з десяток-два: нереально!
3) Хто більше: а чому б і ні?

Чому ж це таки реально:
Загальновідомо, що скани бувають чудові і погані.
Для обробки перших достатньо вказати їх місцеперебування, бо єдині налаштування підходять усім.
Для других потрібен чотиривимірний бубен тетрафлексагональної форми. Та ще й щоб з широким динамічним діапазоном і малими нелінійними викаженнями.
При чому під "поганістю" можна розуміти чи неякісність самої картинки (світло, різкість, розширення, артефакти) - у двох варіантах - як загальна неякісність чи як неоднорідність такої "неякісності" на картинці, або неякісність серії картинок - коли вони відрізняються ось цими "неякісностями". Такі скани можуть потребувати окремих налаштувань для кожної групи зображень. І так аж до індивідуальної роботи з кожною сторінкою.

Але в обох випадках є вийняткове правило:
Цитата:
"Людина буде обробляти вручну лише невелику частину сканів з усієї купи."


Бо якщо вона буде вручну обробляти кожний скан - то хоч якість результату і зросте (індивідуальний підхід), але задоволеність співвідношенням результат/час знизиться нижче мінімальної, коли вже не хочеться продовжувати працювати над книгобудівництвом.

Таким чином: отримати однаково якісну книгу можна з будь-яких сканів. Все буде залежати лише від часу, витраченого на обробку. Саме тому книги з неякісних сканів гірші ніж з якісних - люди намагались оптимізувати співвідношення час/якість, й прийшли до того, що невеликі уступки в якості дозволяють виграти купу вільного часу.

отже, алгоритм повинен бути таким:

- обрати матеріал
- провести всю найважливішу обробку (яка впливає на кінцевий результат/вигляд)
- проконтролювати вихід
- повернути на переобробку брак
- дозбирати все у джвю.

Цитата:
Ну-с, з абстрактною частиною розібрались.


Додано через 1 годину 51 хвилину 9 секунд:

Що не можна дозволити робити комп'ютеру:
- перевіряти результат
бо він може лише прогнозувати що ви хотіли отримати з того, що йому схарчували, і його уявлення про це - дуже наближені.

Що можна дозволити робити: все інше. І це не жарт. Виходячи з вищенаведеного принципу - що людина за замовчуванням не хоче виконувати власноруч більше ніж певну незначну кількість роботи.
- Спочатку вона робить першу книгу і її бісить надзвичайна складність процесу. Потім процес стає механічним для якісних книжок і пеклом для неякісних.
- Потім її бісить необхідність виділяти границі на захаращених сканах у скантейлорі, налаштовувати гаму у фотошопі... але згодом вона привчається "з першого погляду" робити зміни "в один рух" і все те ж стає механічним.
- І лінощі доходять до того, що їй вже ліньки після енної книжки підряд вибирати необхідні для обробки папки, перетягувати списки файлів на обробку з однієї програми в іншу ітп... але ж це все теж механічне.
- Людина починає вважати що вона Бог, який може створити будь-яку Книгу, але як же їй не хочеться знову проводити всі ці однакові ті ж самі дії в черговий раз.

І от ключове слово: однакові дії. А все, що однакове можна автоматизувати. Залишилось вирішити як.

************

Якщо робота повинна бути зроблена, то що ми хочемо з нашої людської точки зору: хтось робить за нас всю нашу роботу. Тобто хтось повинен проробити всі ті ж самі дії на комп'ютері замість нас.

Робота такого роду включає взаємодію з різними програмами
- Photoshop
- ScanTailor
- BookRestorer
- Djvu Small
- і ще низкою інших, стосовно джвю і не тільки, про які я поки що не згадую. Але потім, якось....

Окрім ручного "тицкання" на кнопки майже усі вони дозволяють й інші способи взаємодії
=скріпти (js), командна строка (bat), вбудовані скрипти (book restorer).
Для тих хто такого не дозволяє - як то ScanTailor - можна використати AutoHotkey+руки.

Кожній з програм необхідно передати: вхідну папку, вихідну папку, список застосовуваних налаштувань. Потім дочекатись завершення процесу, і перейти до наступної програми, поклавши її вхідну папку рівну вихідній попередньої.

Отже, кожний етап являє собою:
- формування списку налаштувать
- передачу їх у програму
- виконання/застосування цих налаштувань у програмі
- контроль результату

і так по колу, поки не буде пройдена обробка в усих програмах.

4) контроль можливий тільки візуально. Все що ми можемо зробити на цьому етапі - оптимізувати роботу. Наприклад, обрахувавши середньомаксимальну локальну густину (density) чорних пікселів по зображенням, можна скласти розподіл з найменшою та найбільшою густиною. Напевно, для цих сканів щось пішло не так - і вони вийшли надто засмічені/жирні чи надто погризені/дистрофічні. Отже виводити на контроль необхідно в першу чергу саме їх. Ну а ті, що схожі на інші - напевне з ними все гаразд.

3) застосування налаштувань може бути багатояким:
- якщо програма дозволяє роботу через командну строку - нам їх треба тільки передати.
- якщо дозволяє через скрипти, то застосування налаштувань означає генерацію і виконання певного скрипта
- якщо тільки через візуальний інтерфейс, то застосування це генерація скрипта для AutoHotkey, який при виконанні виконає певні дії у графічному інтерфейсі.

2) передача налаштувань може означати:
- формування певної командної строки
- правка певного скрипта у певних місцях

1) формування налаштувань повинно відповідати певним вимогам:
- це може бути фіксоване значення для взагалі всих зображень/книг, для цієї певної книги, або індивідуальне для кожного зображення
- відповідно воно може бути жорстко прописане у скрипті, мати інтерфейс для налаштування, мати інтерфейс для швидкої зміни і застосування (напівавтоматичний режим), або вміти інтелектуально підбирати значення (наприклад, при різній освітленості сканів, можна автоматично обчислити і згенерувати різні поправки у фотошопі)

Ось такі дії для кожної програми окремо. І вони повторюються.

***************

Крім того, що ми повинні ще робити власноруч:
- видаляти непотрібні файли з тимчасових папок або архівувати щось там на майбутнє
- вибирати наступну папку з файлами на обробку, коли ми оброблюємо багато книжок
- переназивати файли у більш логічні та структуровані імена для змісту / алфавітного порядку
- перейменовувати джвю файли
- ще щось...багато чи мало
- потім ще можемо щось додати чи придумати

А на даний момент ми маємо ось таке:
- з'їдаємо список папок/архівів на обробку (на кожну формуємо по книзі)
- висвічується вікно налаштувань 1-го етапу з двома зонами - вхідна картинка і вихідна (оброблена).
- правимо все що нас не влаштовує, тицяємо кнопку обробки.
- відкривається переглядач зображень - контролюємо якість, якщо все влаштовує - тицяємо "перехід до етапу 2", якщо ні - виділяємо браковані сторінки, й з них автоматично формується підпроект, в якому ми більш детально контролюємо процес - тобто чи проганяємо всі обрані картинки через нові налаштування, чи по черзі застосовуємо індивідуальні до кожної. Відповідно з отриманих можна знову зробити підпроект і так далі.
- відповідно етап два: знову вікно порівняння і налаштувань, і так далі....
- отримуємо першу дежавю книгу, контролюємо якість.
- знову висвічується перший етап, але вже для другої книги ітд.

От, написав оце все вище, і зрозумів, що у ScanTailor все саме так і зроблене. Хоча й без великої кількості корисних плюшок і няшек. Але основна суть така ж. Тож наша задача полягае у тому, що необхідно всі ці няшки приробити до нього і зібрати в щось більш автоматичне.

Список основних етапів:
dir | archive -> pictures' list
list -> list of croped images (quality-safe)
list of ci -> photoshops' tiffs
tiffs -> djvu

Навіщо серед етапів потрібна обрізка: скантейлор може глючити на неякісних сканах (особливо з фотоапарату), і необхідно позбавитись якомога більшої частини мотлоху на зображенні перед його годуванням. Тоді він і за плями не заціпляється при виділенні контенту, і сторінки не повертає у неправильні боки орієнтуючись на криву писанину.

***********

Ну от взагалом-то з прожектдоком і все.
А про додаткові етапи я може розкажу, якщо буде настрій завтра ввечері.
А зараз, хоча вже й половина четвертої ранку, я піду готувати м'ясний пиріг... Sad (1)
Хто ж переможе, сон чи обов'язок?

Додано через 10 хвилин 25 секунд:

Майже забув, я ж не написав, на* воно все треба, та ще й так складно.
Особливо, якщо згадати, що деякі комплексні рішення для лінукс.

1. Мінімум додаткових дій - можна укомплектувати лише ті необхідні програми, що встиг опанувати.
2. Розширюваність: можна створити простий скрипт якщо використовуєшь небагато програм, і функціональний якщо багато.
3. Гнучкість: все можна поміняти місцями і налаштувати по іншому. Додати додаткові етапи чи прибрати.
4. Якість: лінуксовське рішення використовує вільні бібліотеки, ми ж можемо використовувати будь-які. А отже і джвю буде краще, і розпізнавання (бо можна взяти комерційні віндоусівські програми), а на те, що вільні бібліотеки не дотягують до комерційних - вони й самі скаржились у своєму ж форумі щодо цього комплексного рішення.
5. Можливість дописувати/змінювати рішення "на льоту" всим форумом - не так, що кожен просто скаржиться на баги і щось пропонує, а так, що кожен може спробувати окремо кожен етап і дійти якогось висновку щодо того, як змінити.
AmerMinx 
Новенький


З нами з: 01.02.12
Востаннє: 13.10.13
Повідомлень: 8

2012-02-01 22:09  
Взагалом, було б чудово, якщо б хтось поділився чудовими мінівідкриттями...
Особливо, якщо ці мінівідкриття не зазначені на http://www.djvu-soft.narod.ru/

Може окрім власних методик ще створити деякий перелік будь-яко-мовних джерел?
Адже статей з цієї тематики не так вже й багато...
Поділіться хоча б таким переліком. А ми вже якось пережуємо, покращимо власну методику до рівня, який не соромно пропонувати іншим "нащадкам" і викладемо у вигляді чудової статті...
AmerMinx 
Новенький


З нами з: 01.02.12
Востаннє: 13.10.13
Повідомлень: 8

2012-02-02 03:36  
Ну а в загалом-то, якщо це просто друкована книга без ілюстрацій, чи тільки з чорнобілою графікою, якщо нам не потрібно розпізнавання, чи воно жахливе, якщо ми не будемо додавати зміст, ссилки, штампи чи інщі якісь няшки, то все якось так:

Мінімальна версія:
1. Беремо будь-що - сфоткане, відсканене, скачане, експортоване з книги зробленої кимось криворуким та ще й у пдф... - Навіть із неякісного скану можна зробити якісну книгу.
2. Пакетна обробка у фотошоп за списком дій (Any pic, any dpi -> Покращення -> Bitmap tiff 600 dpi)
3. Різка у СканТейлор
4. Склейка у djvu small (User 600)

Але це ж усим відомо. Ну може окрім фотошопHappy
Нащо він - щоб текст був приємнішим на вигляд. Тому що з пропуском цього етапу результуючі літери мають "погризені" краї або надто тонкі перемички - бо відсічка чорне/біле при бінарізації не звертає увагу на випадкові флуктуації освітлення при зйомці. І тим паче ті, що властиві формату jpeg.

******************

Ну а далі вже ідуть тонкощі комбінування софта, мозку, рук, досвіду та налаштувань на кожному етапі.
Наприклад складемо схему отримання кінцевої книжки:
1. Отримати вхідні дані.
2. Відокремити з них лише корисні (позбутися зайвого).
3. Застосувати деякий стиль форматування (привести до кінцевого вигляду)
4. Перетворити/створити додаткові дані (розпізнавання, зміст ітп)
5. Склеїти все у формат джвю.

З етапом (1), думаю ясно. Все що я можу сказати - напевно всі вже знають. Просто не використовують на практиці і тому не пам'ятають. Але якщо я почну перелічувати - почнуть затверджувати, що це елементарно.
Всі наступні етапи (2)-(5) за своїм змістом - комп'ютерна обробка (а якщо ми щось перепаковуємо - то взагалі всі етапи (1)-(5)). В такому разі чудовою схемою було б:

- вказав програмі папку.
- з'явилась книжка.

Але наша реальність жорстокіша. Набагато. І на виході замість книжки при такому підході з'явиться лише бяка у форматі джвю. А отже десь між процедурами другого етапу потрібен третій:

- контроль проміжних результатів.

*************

Наскільки ж реальне ось таке "трьохетапне" книгобудівництво?
1) Ті хто не зробив жодної книжки: напевно реально
2) Хто зробив з десяток-два: нереально!
3) Хто більше: а чому б і ні?

Чому ж це таки реально:
Загальновідомо, що скани бувають чудові і погані.
Для обробки перших достатньо вказати їх місцеперебування, бо єдині налаштування підходять усім.
Для других потрібен чотиривимірний бубен тетрафлексагональної форми. Та ще й щоб з широким динамічним діапазоном і малими нелінійними викаженнями.
При чому під "поганістю" можна розуміти чи неякісність самої картинки (світло, різкість, розширення, артефакти) - у двох варіантах - як загальна неякісність чи як неоднорідність такої "неякісності" на картинці, або неякісність серії картинок - коли вони відрізняються ось цими "неякісностями". Такі скани можуть потребувати окремих налаштувань для кожної групи зображень. І так аж до індивідуальної роботи з кожною сторінкою.

Але в обох випадках є вийняткове правило:
Цитата:
"Людина буде обробляти вручну лише невелику частину сканів з усієї купи."


Бо якщо вона буде вручну обробляти кожний скан - то хоч якість результату і зросте (індивідуальний підхід), але задоволеність співвідношенням результат/час знизиться нижче мінімальної, коли вже не хочеться продовжувати працювати над книгобудівництвом.

Таким чином: отримати однаково якісну книгу можна з будь-яких сканів. Все буде залежати лише від часу, витраченого на обробку. Саме тому книги з неякісних сканів гірші ніж з якісних - люди намагались оптимізувати співвідношення час/якість, й прийшли до того, що невеликі уступки в якості дозволяють виграти купу вільного часу.

отже, алгоритм повинен бути таким:

- обрати матеріал
- провести всю найважливішу обробку (яка впливає на кінцевий результат/вигляд)
- проконтролювати вихід
- повернути на переобробку брак
- дозбирати все у джвю.

Цитата:
Ну-с, з абстрактною частиною розібрались.


Додано через 1 годину 51 хвилину 9 секунд:

Що не можна дозволити робити комп'ютеру:
- перевіряти результат
бо він може лише прогнозувати що ви хотіли отримати з того, що йому схарчували, і його уявлення про це - дуже наближені.

Що можна дозволити робити: все інше. І це не жарт. Виходячи з вищенаведеного принципу - що людина за замовчуванням не хоче виконувати власноруч більше ніж певну незначну кількість роботи.
- Спочатку вона робить першу книгу і її бісить надзвичайна складність процесу. Потім процес стає механічним для якісних книжок і пеклом для неякісних.
- Потім її бісить необхідність виділяти границі на захаращених сканах у скантейлорі, налаштовувати гаму у фотошопі... але згодом вона привчається "з першого погляду" робити зміни "в один рух" і все те ж стає механічним.
- І лінощі доходять до того, що їй вже ліньки після енної книжки підряд вибирати необхідні для обробки папки, перетягувати списки файлів на обробку з однієї програми в іншу ітп... але ж це все теж механічне.
- Людина починає вважати що вона Бог, який може створити будь-яку Книгу, але як же їй не хочеться знову проводити всі ці однакові ті ж самі дії в черговий раз.

І от ключове слово: однакові дії. А все, що однакове можна автоматизувати. Залишилось вирішити як.

************

Якщо робота повинна бути зроблена, то що ми хочемо з нашої людської точки зору: хтось робить за нас всю нашу роботу. Тобто хтось повинен проробити всі ті ж самі дії на комп'ютері замість нас.

Робота такого роду включає взаємодію з різними програмами
- Photoshop
- ScanTailor
- BookRestorer
- Djvu Small
- і ще низкою інших, стосовно джвю і не тільки, про які я поки що не згадую. Але потім, якось....

Окрім ручного "тицкання" на кнопки майже усі вони дозволяють й інші способи взаємодії
=скріпти (js), командна строка (bat), вбудовані скрипти (book restorer).
Для тих хто такого не дозволяє - як то ScanTailor - можна використати AutoHotkey+руки.

Кожній з програм необхідно передати: вхідну папку, вихідну папку, список застосовуваних налаштувань. Потім дочекатись завершення процесу, і перейти до наступної програми, поклавши її вхідну папку рівну вихідній попередньої.

Отже, кожний етап являє собою:
- формування списку налаштувать
- передачу їх у програму
- виконання/застосування цих налаштувань у програмі
- контроль результату

і так по колу, поки не буде пройдена обробка в усих програмах.

4) контроль можливий тільки візуально. Все що ми можемо зробити на цьому етапі - оптимізувати роботу. Наприклад, обрахувавши середньомаксимальну локальну густину (density) чорних пікселів по зображенням, можна скласти розподіл з найменшою та найбільшою густиною. Напевно, для цих сканів щось пішло не так - і вони вийшли надто засмічені/жирні чи надто погризені/дистрофічні. Отже виводити на контроль необхідно в першу чергу саме їх. Ну а ті, що схожі на інші - напевне з ними все гаразд.

3) застосування налаштувань може бути багатояким:
- якщо програма дозволяє роботу через командну строку - нам їх треба тільки передати.
- якщо дозволяє через скрипти, то застосування налаштувань означає генерацію і виконання певного скрипта
- якщо тільки через візуальний інтерфейс, то застосування це генерація скрипта для AutoHotkey, який при виконанні виконає певні дії у графічному інтерфейсі.

2) передача налаштувань може означати:
- формування певної командної строки
- правка певного скрипта у певних місцях

1) формування налаштувань повинно відповідати певним вимогам:
- це може бути фіксоване значення для взагалі всих зображень/книг, для цієї певної книги, або індивідуальне для кожного зображення
- відповідно воно може бути жорстко прописане у скрипті, мати інтерфейс для налаштування, мати інтерфейс для швидкої зміни і застосування (напівавтоматичний режим), або вміти інтелектуально підбирати значення (наприклад, при різній освітленості сканів, можна автоматично обчислити і згенерувати різні поправки у фотошопі)

Ось такі дії для кожної програми окремо. І вони повторюються.

***************

Крім того, що ми повинні ще робити власноруч:
- видаляти непотрібні файли з тимчасових папок або архівувати щось там на майбутнє
- вибирати наступну папку з файлами на обробку, коли ми оброблюємо багато книжок
- переназивати файли у більш логічні та структуровані імена для змісту / алфавітного порядку
- перейменовувати джвю файли
- ще щось...багато чи мало
- потім ще можемо щось додати чи придумати

А на даний момент ми маємо ось таке:
- з'їдаємо список папок/архівів на обробку (на кожну формуємо по книзі)
- висвічується вікно налаштувань 1-го етапу з двома зонами - вхідна картинка і вихідна (оброблена).
- правимо все що нас не влаштовує, тицяємо кнопку обробки.
- відкривається переглядач зображень - контролюємо якість, якщо все влаштовує - тицяємо "перехід до етапу 2", якщо ні - виділяємо браковані сторінки, й з них автоматично формується підпроект, в якому ми більш детально контролюємо процес - тобто чи проганяємо всі обрані картинки через нові налаштування, чи по черзі застосовуємо індивідуальні до кожної. Відповідно з отриманих можна знову зробити підпроект і так далі.
- відповідно етап два: знову вікно порівняння і налаштувань, і так далі....
- отримуємо першу дежавю книгу, контролюємо якість.
- знову висвічується перший етап, але вже для другої книги ітд.

От, написав оце все вище, і зрозумів, що у ScanTailor все саме так і зроблене. Хоча й без великої кількості корисних плюшок і няшек. Але основна суть така ж. Тож наша задача полягае у тому, що необхідно всі ці няшки приробити до нього і зібрати в щось більш автоматичне.

Список основних етапів:
dir | archive -> pictures' list
list -> list of croped images (quality-safe)
list of ci -> photoshops' tiffs
tiffs -> djvu

Навіщо серед етапів потрібна обрізка: скантейлор може глючити на неякісних сканах (особливо з фотоапарату), і необхідно позбавитись якомога більшої частини мотлоху на зображенні перед його годуванням. Тоді він і за плями не заціпляється при виділенні контенту, і сторінки не повертає у неправильні боки орієнтуючись на криву писанину.

***********

Ну от взагалом-то з прожектдоком і все.
А про додаткові етапи я може розкажу, якщо буде настрій завтра ввечері.
А зараз, хоча вже й половина четвертої ранку, я піду готувати м'ясний пиріг... Sad (1)
Хто ж переможе, сон чи обов'язок?

Додано через 10 хвилин 25 секунд:

Майже забув, я ж не написав, на* воно все треба, та ще й так складно.
Особливо, якщо згадати, що деякі комплексні рішення для лінукс.

1. Мінімум додаткових дій - можна укомплектувати лише ті необхідні програми, що встиг опанувати.
2. Розширюваність: можна створити простий скрипт якщо використовуєшь небагато програм, і функціональний якщо багато.
3. Гнучкість: все можна поміняти місцями і налаштувати по іншому. Додати додаткові етапи чи прибрати.
4. Якість: лінуксовське рішення використовує вільні бібліотеки, ми ж можемо використовувати будь-які. А отже і джвю буде краще, і розпізнавання (бо можна взяти комерційні віндоусівські програми), а на те, що вільні бібліотеки не дотягують до комерційних - вони й самі скаржились у своєму ж форумі щодо цього комплексного рішення.
5. Можливість дописувати/змінювати рішення "на льоту" всим форумом - не так, що кожен просто скаржиться на баги і щось пропонує, а так, що кожен може спробувати окремо кожен етап і дійти якогось висновку щодо того, як змінити.
cizarion 
Оцифрування книг Гуртом
Оцифрування книг Гуртом


З нами з: 01.01.10
Востаннє: 13.11.17
Повідомлень: 2036

2012-02-02 08:39  
AmerMinx, дякую, що зрушили темуHappy
із фотошопом самому стало цікаво. ввечері прийду з роботи - розбиратимусь Wide grin
AmerMinx 
Новенький


З нами з: 01.02.12
Востаннє: 13.10.13
Повідомлень: 8

2012-02-02 11:44  
Щоб довго не мучатись....

Скріншот всіх необхідних дій у палітрі Actions:


Власне, весь пресет. Вантажиться через Actions->Load Actions... -> обрати файл. Чи просто тиком по ньому, якщо налаштовані файлові асоциації.
http://www.fayloobmennik.net/1490806

У цьому пресеті наявно два профілі - один для книг, інший для зошитів (щоб максимально позбутися клітинок). Єдине, чим вони відрізняються від вищезгаданої версії скрипту для фотошопа - немає автоналаштування і всі дії з коду перенесені у палітру.

А отже для кожного випадку сканів треба спочатку підібрати Curves - для освітлення, та HighPass - за найбільшим елементом тексту. Ну і може ще погратися з Threshold

Ось воно щось таке:


Тобто уширює тонкі букви, згладжує їх і прибирає малі артефакти - все завдяки HighPass'у

Додано через 23 хвилини 53 секунди:

Забув:
запускати обробку сканів через:
File->Automate->Batch...
balik2 
Оцифрування книг Гуртом
Оцифрування книг Гуртом


З нами з: 19.01.11
Востаннє: 11.12.17
Повідомлень: 1296

2012-02-02 12:14  
AmerMinx
сьогодні спробую скрипти на одному з томів Лесі Українки, там дуже рвані літери виходять після скантейлора через низьку якість друку
balik2 
Оцифрування книг Гуртом
Оцифрування книг Гуртом


З нами з: 19.01.11
Востаннє: 11.12.17
Повідомлень: 1296

2012-02-02 21:08  
ось результати випробувань. 3 файли, оригінал, оброблену скриптом і оброблену в скантейлорі
http://infanata.ifolder.ru/28476697

скантейлор краще справився
AmerMinx 
Новенький


З нами з: 01.02.12
Востаннє: 13.10.13
Повідомлень: 8

2012-02-02 22:24  
А мені так подобалось працювати з фотошопом... напевно це вже архаїчно, віджито....
Не ображайсяHappy Напевно, в кожного існує своє пойняття "краще".

Твоє краще - з того боку, що ти проводиш мінімум обробки, а отже результат ближче до оригінально відсканованих аркушів. І літери мають ту ж саму а не більшу товщину, і інше...
Моє краще - з того боку, що я читаю з ноутбука. А на лсд моніторах найменщі артефакти на літерах при масштабуванні зображення інтерферують з піксельною сіткою - і мені просто дуже-дуже неприємно і навіть болісно таке результуюче ***(=зображення на моніторі) читати. А от гладенькі літери масштабуються непогано.

Це не холівар на тему чим краще обробляє скани, і я зовсім не переконую усіх використовувати фотошоп. До того ж налаштування необхідно підбирати під кожен набор сканів індивідуально, а не так що застосував універсальний скрипт - і все.

І знову прошу, не ображайся, але я не втримався і нарізав твої скани.


Додано через 3 хвилини 6 секунд:

Зображення пречудово зменшилось. Грр.
Краще дивіться в оригінальному розширенні 2000х800
http://www.fayloobmennik.net/1494710
balik2 
Оцифрування книг Гуртом
Оцифрування книг Гуртом


З нами з: 19.01.11
Востаннє: 11.12.17
Повідомлень: 1296

2012-02-02 22:29  
я ж і написав щоб знайти добре рішення а не ображатись Happy))

так як зліва я і хотів отримати після обробки, навіть трохи погрався з параметрами, але тут поганий друк, перетинки між літерою Н дуже тонкі і втрачались при обробці, а з іншого боку коли робив жирніше, то зливались палки в тій же Н але зверху на засічках, так і прийнятного не підібрав. скинь скрип яким ти обробляв, спробую ще раз з твоїми параметрами Happy

Додано через 1 хвилину 19 секунд:

подібний результат згладжування дає сканкромсатор, але він не такий зручний в роботі як скантейлорSad (1)
cizarion 
Оцифрування книг Гуртом
Оцифрування книг Гуртом


З нами з: 01.01.10
Востаннє: 13.11.17
Повідомлень: 2036

2012-02-02 22:59  
а що із часом обробки? ФШ проти СТ?
AmerMinx 
Новенький


З нами з: 01.02.12
Востаннє: 13.10.13
Повідомлень: 8

2012-02-02 23:11  
Доречі, при подальшому розпізнаванні для OCR-layer, файнрідер для результатів зі скантейлора дає трохи кращій результат.
Це пов'язано з особливостями вхідного формату файнрідера - на кожне зображення для розпізнавання він застосовує цілу низку адаптивних фільтрів, на виході яких отримується зображення подібне до вихідного зображення скантейлора. І всі алгоритми розпізнавання зображень заточені саме під такі "угловаті" шрифти.

Відповідно застосування всих тих самих фільтрів не до сірих сканів, а до бітональних ніяк їх не змінює.
І у випадку скантейлора, файнрідер працює з майже "рідним" вхідним форматом, а у випадку моїх "згладжених" літер - з чимость незрозумілим і з його точки зору неякісним.

Але, як я написав вище - результат розпізнавання лише трохи кращій. Тобто є літери, які однаково погано розпізнаються в обох випадках, і з якими нічого не можна зробити через неякісність самих сканів. А є літери (і таких більшість), які розпізнаються по-різному, а отже, на одні літери "справив краще враження" скантейлор, на інщі - фотошоп.

Відповідно, можна добитись і такого, використовуючи більш лагідні налаштування для фотошопу, коли ось ці всі літери будуть однаково якісно розпізнані.

P.S. взагалі-то порівняння скрипту і скантейлора було трохи хитруватим. Адже після скрипту зображення все одно потрібно було б обробляти скантейлором. А він би провів додаткове згладження і очистку. А отже результат після скрипту міг ще трохи відрізнятисьHappy

*************

Нехай СТ кольорових сканів займає 1 годину.
Тоді попередній ФШ займе десь з 10-15хв.
На виході з ФШ будуть вже бітональні скани.
СТ буде працювати вже 55 хв.

Ітого: ми витрачаємо на 15% більше часу на обробку заради згладжених літер.
AmerMinx 
Новенький


З нами з: 01.02.12
Востаннє: 13.10.13
Повідомлень: 8

2012-02-03 02:29  
balik2, перечитав знову твоє повідомлення...
Ти помилився, я не казав, що заново обробляв твої скани.
Я мав на увазі, що нарізав ТВОЇ - ті що ти скинув. Тобто ота порівняльна таблиця зроблена з отриманих тобою результатів, а не мноюHappy
golem 
Оцифрування книг Гуртом
Оцифрування книг Гуртом


З нами з: 24.04.09
Востаннє: 24.11.17
Повідомлень: 348

2012-10-21 19:09  
AmerMinx написано:
Для тих хто такого не дозволяє - як то ScanTailor - можна використати AutoHotkey+руки


В папці ScanTailor є файл scantailor-cli - можна прописати в bat-файлі потрібні частовживані параметри, наприклад надибав на швидкоруч в інтернетрях:

"D:\Programs\Graphics\Scanning\ScanTailorPlus\scantailor-cli.exe" --output-dpi=600 --color-mode=mixed --threshold=0 --despeckle=cautious -o="F:\TempOCR\br\2-o.ScanTailor" "F:\TempOCR\br\2.ScanTailor" "F:\TempOCR\br\out2"

DjvuSmall - графічна надбудова до documentdjvu - аналогічно батником задаєм параметри, для одних запустити один бат-файл для інших інший.
СІД 
Новенький


З нами з: 18.11.12
Востаннє: 07.12.17
Повідомлень: 11

2013-01-08 03:58  
З учорашнього дня (вперше) сканую Ремарка. Сканер + ABBYY FineReader 11. Встигай сторінки перегортати. Роспізнає сторінки і PDF не фотками. Зберігай тільки правильно. Може й нудна робота та час покаже.
balik2 
Оцифрування книг Гуртом
Оцифрування книг Гуртом


З нами з: 19.01.11
Востаннє: 11.12.17
Повідомлень: 1296

2013-01-08 08:59  
СІД написано:
З учорашнього дня (вперше) сканую Ремарка. Сканер + ABBYY FineReader 11.

сподіваюсь скануєте в сірих тонах 300 dpi?
mudryy33 
Відео Гуртом - підтримка та поширення
Відео Гуртом - підтримка та поширення


З нами з: 26.09.11
Востаннє: 11.12.17
Повідомлень: 142

2013-01-11 21:16  
1. Фоткаю Nokia X7
2. заганяю в FineReader
3. РЕДАГУЮ
4. Готово
yatsyk20110706 
Частий відвідувач


З нами з: 06.07.11
Востаннє: 23.11.17
Повідомлень: 32

2013-02-03 22:31  
Обробляю книги у Scan Tailor, є українська мова, безплатна. Дуже хороша програма.
balik2 
Оцифрування книг Гуртом
Оцифрування книг Гуртом


З нами з: 19.01.11
Востаннє: 11.12.17
Повідомлень: 1296

2013-02-04 09:18  
yatsyk20110706 написано:
Обробляю книги у Scan Tailor, є українська мова, безплатна. Дуже хороша програма.

для старих радянських книг або сучаних але погано надрукованих бінаризацію краще робити в сканкромсаторі, а так скантейлор прекрасна программа на щодень
lpershyi 
Попереджень: 2
Попереджень: 2 


З нами з: 04.01.11
Востаннє: 03.08.17
Повідомлень: 2741

2014-08-16 16:41  
cizarion написано:
Пакетна обробка у фотошоп
це як? Увімкнув пготосгоп, далі, що тицькати, які дії виконувати?
lightoflucifer 
Частий відвідувач


З нами з: 26.03.12
Востаннє: 06.12.17
Повідомлень: 35

2014-09-07 11:40  
Єдине чого в Scan Tilor не вистачає - проста обрізка сторінок по краю. Може я не знайшов, правда.
Я вимушений ставити в ньому білі поля і їх потім обрізати якимись іншими прогами.

І ще - хто чим прибирає жовтизну сторінок?
Smu 
Поважний учасник


З нами з: 26.11.11
Востаннє: 25.10.15
Повідомлень: 205

2014-09-07 14:39  
hellfireofsatan написано:
І ще - хто чим прибирає жовтизну сторінок?


Можливо, буде ефект від конвертування зображення у "відтінки сірого"

Про очищення сторінок в фотошопі:
http://www.youtube.com/watch?v=F92-Zjc_z7g
balik2 
Оцифрування книг Гуртом
Оцифрування книг Гуртом


З нами з: 19.01.11
Востаннє: 11.12.17
Повідомлень: 1296

2014-09-07 18:48  
hellfireofsatan
не ставте галочку "Білі поля" і программа буде обрізати сторінки під один розмір без додавання білих полів
lightoflucifer 
Частий відвідувач


З нами з: 26.03.12
Востаннє: 06.12.17
Повідомлень: 35

2014-09-12 15:04  
balik2
Так я теж так думав, але в мене чомусь після "Виводу" в папці out складено лише необрізані сторінки.
Я використовую Scan Tailor Featured - може це має якесь значення?
balik2 
Оцифрування книг Гуртом
Оцифрування книг Гуртом


З нами з: 19.01.11
Востаннє: 11.12.17
Повідомлень: 1296

2014-09-12 19:46  
hellfireofsatan
зробіть скріншоти Scan Tailor на кожному етапі та скиньте мені, подивлюсь що йде не так
Pokrovsky13 
Новенький


З нами з: 19.01.14
Востаннє: 18.11.16
Повідомлень: 9

2015-11-22 20:50  
А не простіше все робити в Фотошопі? Це ж сама найкраща програма для роботи із зображенями.
Фотошоп вміє сканувати книги, в ньому ж можна почистити сторінки, зробити реставрацію сторінок та зображень, та із збережених зображень за пару секунд створити книгу в форматі PDF.

Тільки скануйте книги обовязково в кольорі (навіть якщо там просто текст) кольорові зображення краще реставруються. Чим більше буде різних дефектів на сторінках (подряпини) - тим краще, це означає що сканер добре відсканував зображення.
Само собою сканер повинен бути чистим від пилу та не засмальцьованим пальцями.
Далі кольоровий скан чистимо ві шуму, прибираємо жовтизну сторінок та переводимо в чоно-біле зображення, додаємо контрасту та яскравості. Зберігаємо зображення на комп.
Коли так буде оброблено всі сторінки книги - додаємо всі зображення разом в Фотошоп і за пару секунд створюємо книгу в форматі PDF.

Я так зазвичай реставрую чорно-білі сімейні фото, пробував і книгу так сканувати - із заплямованих, пожовклих сторінок виходять гарні чорно-білі зображення.
balik2 
Оцифрування книг Гуртом
Оцифрування книг Гуртом


З нами з: 19.01.11
Востаннє: 11.12.17
Повідомлень: 1296

2015-11-22 21:10  
Pokrovsky13
коли обробити потрібно 10000 сторінок то фотошоп не краще рішення
Ваш часовий пояс: GMT + 2 Години

Нова тема   Відповісти