Оцифрування 50-томника Івана Франка (+ доповнень)

Нові коментарі

Нова тема   Відповісти
Сторінка:   попередня  1, 2, 3, 4, 5  наступна
Автор Повідомлення
cizarion 
Оцифрування книг Гуртом
Оцифрування книг Гуртом


З нами з: 01.01.10
Востаннє: 14.10.19
Повідомлень: 2035

2011-10-07 10:03  
tarasdem2 написано:
а я надіявся, що дасте ще троха підкалимити
...є ще мооооре книг, так що танцювати буде над чимHappy
tarasdem2 написано:
пдф версією проблем не мало би бути, на пряму зберігати з ФР, так?Це і буде OCR
так, якщо текст розпізнаний. у тебе ФР11?
tarasdem2 написано:
А які ще формати можна?
*.doc, *.html, *.fb2...
тільки в останніх двох, здається, нумерація сторінок не зберігається... правда, на Літописі, Мілітері, Востліті якось проставляють сторінки червоним зі скісною рискою в тексті... може, хтось знає, як це технічно зробити?
tarasdem2 написано:
мені здається що варто робити окремим релізом
повністю підтримую.

тому із OCR зараз можна сформулювати такі основні проблеми:

організаційна:
у яких форматах проводити OCR (*.djvu з текстовим шаром, *.pdf OCR, *.doc, *.html, *.fb2, *.txt). особисто я "за" всі перелічені. тим більше, їх можна стартувати із ФР

технічна:
зберігати чи ні нумерацію сторінок? якщо зберігати, то як, щоб нормально виглядало?

у кого ще які думки?
balik2 
Оцифрування книг Гуртом
Оцифрування книг Гуртом


З нами з: 19.01.11
Востаннє: 16.10.19
Повідомлень: 1373

2011-10-07 10:38  
cizarion написано:
у кого ще які думки?


для того щоб книга була книгою найкраще підходить djvu з текстовим шаром

для читалок найкраще підходить *.fb2

інші формати це вже на любителя Happy)
tarasdem2 
Почесний оцифрувальник літератури


З нами з: 07.02.11
Востаннє: 20.06.13
Повідомлень: 283

2011-10-07 14:07  
cizarion написано:
у тебе ФР11?

У мене ФР10, це суттєво?

Стосовно нумерації сторінок:
ФР деколи розпізнає нумерацію як окрему зону, а деколи об'єднює із загальним текстом, я частину переробив так щоб нумерація була окремою зоною.Чи як робити?
cizarion написано:
зберігати чи ні нумерацію сторінок?

Не знаю, але, майже у всіх книгах коментарі, покажчики імен і само собою змісти мають прив'язку до нумерації.
А якщо є текстовий шар то людина при потребі копіює його в ВОРД(наприклад) і трішки підкорегувавши має готову статтю....

Може хтось порадить стосовно створення fb2 ?
tarasdem2 
Почесний оцифрувальник літератури


З нами з: 07.02.11
Востаннє: 20.06.13
Повідомлень: 283

2011-10-07 19:40  
cizarion я завантажив ФР 11звідси є якась різниця в порівнянні з ABBYY FineReader 11.0.102.481 Professional Edition (+ Portable) [2011, ML + Ukr] маю на увазі в роботі, просто тут одним файлом ехе, а в твому їх пару і мені якщо чесно страшновато.
І доречі, стару 10-у версію обов'язково видаляти?
golem 
Оцифрування книг Гуртом
Оцифрування книг Гуртом


З нами з: 24.04.09
Востаннє: 16.10.19
Повідомлень: 348

2011-10-07 22:07  
cizarion написано:

*.doc, *.html, *.fb2...

тільки в останніх двох, здається, нумерація сторінок не зберігається... правда, на Літописі, Мілітері, Востліті якось проставляють сторінки червоним зі скісною рискою в тексті... може, хтось знає, як це технічно зробити?

це тому що два останіх формати є _початково_ електронними і там точно стандартами не передбачо нумерацію сторінок, та й у doc при похибках у форматуванні оригінальна нумерація злетить. /Надаю перевагу rtf перед doc - більш універсальний./

А технічно це не складно - все придумали до нас /наприклад на тій самій мілітері/, основне знати для чого/кого то треба.

balik2 написано:
інші формати це вже на любителя )

djvu & fb2 - підтримую на всі сто:
- для художньої літератури fb2 - в бібліотеки інше пхати дурна робота, а інші формати легко можна сконвертувати;
- для філологів djvu - гарантовано збережеться порядок сторінок, та й за очепятки можна забути
cizarion 
Оцифрування книг Гуртом
Оцифрування книг Гуртом


З нами з: 01.01.10
Востаннє: 14.10.19
Повідомлень: 2035

2011-10-07 22:54  
tarasdem2 написано:
У мене ФР10, це суттєво?
у мене теж стояв, поки 11-ий не вийшов, але після короткого знайомства на всі 100% переконався, що 11-ий ЗНАЧНО кращий, так що його і рекомендуюHappy
tarasdem2 написано:
просто тут одним файлом ехе, а в твому їх пару і мені якщо чесно страшновато
ядро все одно те саме, так що відмінностей жодних)
tarasdem2 написано:
стару 10-у версію обов'язково видаляти?
як хочеш. я видалив. 1 Гб вільного місця на HDD знадобитьсяHappy
golem написано:
основне знати для чого/кого то треба
власне, хоча б ось для чого:
tarasdem2 написано:
майже у всіх книгах коментарі, покажчики імен і само собою змісти мають прив'язку до нумерації

golem, дякую за посилання на мілітеру. дуже кориснеWide grin
tarasdem2 
Почесний оцифрувальник літератури


З нами з: 07.02.11
Востаннє: 20.06.13
Повідомлень: 283

2011-10-07 22:58  
tarasdem2 написано:
ФР деколи розпізнає нумерацію як окрему зону, а деколи об'єднює із загальним текстом, я частину переробив так щоб нумерація була окремою зоною.Чи як робити?

Хотілося б всетаки знати, чи треба перерозподіляти зони, стосовно нумерації ,чи залишати так як визначив ФР.

cizarion дякую! 11-й уже поставив, трохи незвично,але вражає!!!
cizarion 
Оцифрування книг Гуртом
Оцифрування книг Гуртом


З нами з: 01.01.10
Востаннє: 14.10.19
Повідомлень: 2035

2011-10-08 00:06  
tarasdem2 написано:
чи треба перерозподіляти зони
ні, не треба. для розпізнаного педеефа це ролі не грає, тільки витрачений час... для doc i docx теж. моя думка: не треба)
cizarion 
Оцифрування книг Гуртом
Оцифрування книг Гуртом


З нами з: 01.01.10
Востаннє: 14.10.19
Повідомлень: 2035

2011-10-08 15:53  
завершую обробку покажчика купюр. у 52-му та 53-му томах, наданих Oooops-ом, певну кількість сторінок треба перефотографовувати через дефекти сканування. то вже з понеділкаHappy
golem 
Оцифрування книг Гуртом
Оцифрування книг Гуртом


З нами з: 24.04.09
Востаннє: 16.10.19
Повідомлень: 348

2011-10-08 16:53  
cizarion написано:
майже у всіх книгах коментарі, покажчики імен і само собою змісти мають прив'язку до нумерації

у fb2 я використовую "примітки" та "коментарі", зміст там по стандарту, а у html здається досить легко вирішується внутрішніми посиланнями, імхо.

cizarion написано:
як хочеш. я видалив. 1 Гб вільного місця на HDD знадобиться

в мене портативна, завантажена з толоки, займає лиш 250 Mb, та й FR9 та FR8 досі лежать - коли новий глюкне на якісь книжці краще зроблю по старому, ніж буду мудрити як глюк обійти.
tarasdem2 
Почесний оцифрувальник літератури


З нами з: 07.02.11
Востаннє: 20.06.13
Повідомлень: 283

2011-10-08 18:28  
cizarion написано:
ні, не треба. для розпізнаного педеефа це ролі не грає, тільки витрачений час... для doc i docx теж. моя думка: не треба)

cizarion дякую, а то б я зарукоблудився по самі помідори, в багатьох питаннях я ще чайник...

Я зробив пдф версії 17, 19, 45,49-ого томів з твоїх джву, але є нюанс, не знаю чому 45 вийшов 35мб, хоча мавби мати не більше 10-ти, я їх закину в сирий матеріал, будеш мати час додаш до своїх.

Скажіть будь ласка а ФР може просто відкрити файл без автоматичного розпізнання, може десь в налаштуваннях?
cizarion 
Оцифрування книг Гуртом
Оцифрування книг Гуртом


З нами з: 01.01.10
Востаннє: 14.10.19
Повідомлень: 2035

2011-10-08 19:22  
так, може. Сервіс\Опції\сканувати-відкрити\галочку на "Відключити автоматичний аналіз і розпізнавання зображення". у цьому віконці є ще ряд корисних опцій, які можна налаштувати "під себе"Happy

Додано через 25 хвилин 4 секунди:

tarasdem2, все ніби нормально, але чомусь 19-ий том препоганої якості. зараз за іншим комп'ютером і не маю змоги перевірити, але невже і в мене так було? Sad (1)

45-ий такий великий, бо великий розмір сторінок. треба буде щось робити...
tarasdem2 
Почесний оцифрувальник літератури


З нами з: 07.02.11
Востаннє: 20.06.13
Повідомлень: 283

2011-10-08 20:04  
Дійсно пдф гірший за вихідний джву, але робив так само як і інші, спробую ще раз...
xriak 
Поважний учасник


З нами з: 05.12.08
Востаннє: 16.09.12
Повідомлень: 183

2011-10-08 21:40  
дякую за правильну роздачу

а не візьметеся за 20-томне зібрання творів І. Франка?Wink (1)
cizarion 
Оцифрування книг Гуртом
Оцифрування книг Гуртом


З нами з: 01.01.10
Востаннє: 14.10.19
Повідомлень: 2035

2011-10-08 22:16  
xriak написано:
а не візьметеся за 20-томне зібрання творів І. Франка?
а навіщо?
tarasdem2 
Почесний оцифрувальник літератури


З нами з: 07.02.11
Востаннє: 20.06.13
Повідомлень: 283

2011-10-08 22:27  
У мене проблеми із збереженням вичитаного тексту в пдф з фр10, рядки чомусь зміщуються по горизонталі і вилітають за межі сторінки
cizarion 
Оцифрування книг Гуртом
Оцифрування книг Гуртом


З нами з: 01.01.10
Востаннє: 14.10.19
Повідомлень: 2035

2011-10-08 23:00  
tarasdem2 написано:
рядки чомусь зміщуються по горизонталі і вилітають за межі сторінки
може, варто вибрати опцію "точна копія" і/або погратися із налаштуваннями (там де збереження вибрати галочку "Зберігати поділ на рядки")...
tarasdem2 
Почесний оцифрувальник літератури


З нами з: 07.02.11
Востаннє: 20.06.13
Повідомлень: 283

2011-10-08 23:13  
На одній сторінці вдалося якось так обійти у фр і перезберегти, на іншій довелося у фр перерозпізнати, знов перечитати і перезберегти(на ній же одного рядка, заголовного взагалі не було) передивляюся всі.

Чомусь при відкритті пакету з ФР10 у ФР 11 видало повідомлення, що сторінки ніби розпізнані але щось із форматами, і треба перерзпізнати їх, але це ж значить, що і перечитувати(а їх 150ст)тому поки роблю на фр10
tarasdem2 написано:
вибрати галочку "Зберігати поділ на рядки")...

але ж при збереженні в пдф там такого нема...
cizarion 
Оцифрування книг Гуртом
Оцифрування книг Гуртом


З нами з: 01.01.10
Востаннє: 14.10.19
Повідомлень: 2035

2011-10-08 23:55  
tarasdem2 написано:
але ж при збереженні в пдф там такого нема...
дійсно, то лиш для doc i docx. то я так, по своїй дірявій пам'яті сказавHappy
xriak 
Поважний учасник


З нами з: 05.12.08
Востаннє: 16.09.12
Повідомлень: 183

2011-10-09 10:30  
cizarion
у 20-томнику є праці, що не ввійшли в 50-томник.
Ooops 
Частий відвідувач


З нами з: 14.08.10
Востаннє: 13.10.19
Повідомлень: 33

2011-10-09 11:12  
xriak
Цитата:
у 20-томнику є праці, що не ввійшли в 50-томник.

Конкретизуйте, будь ласка.
tarasdem2 
Почесний оцифрувальник літератури


З нами з: 07.02.11
Востаннє: 20.06.13
Повідомлень: 283

2011-10-09 11:39  
Ooops написано:
Конкретизуйте, будь ласка.

Підтримую.
xriak якщо у Вас є така можливість, це б дуже допомогло, маю на увазі на майбутнє, бо з 50-ти томником ще роботи ого-го.
Взагалі була колись пропозиція про створення сайту Франка, як наприклад Лесі Укаїнки, але там всі її твори повністю оцифровані, тобто в цифрово-текстовому форматі так би мовити.
Добре би було, звичайно ті твори що нема в 50-ти томнику додати, але перескановувати всі двадцять...

Думаю що я пішов накінець по правильному шляху, я 41-й том зберіг у ВОРД, тут якось краще редагується...
xriak 
Поважний учасник


З нами з: 05.12.08
Востаннє: 16.09.12
Повідомлень: 183

2011-10-09 13:06  
може не дошукався, але наприклад немає поеми "Сучасний літопис", написана орієнтовно в 1896 році
cizarion 
Оцифрування книг Гуртом
Оцифрування книг Гуртом


З нами з: 01.01.10
Востаннє: 14.10.19
Повідомлень: 2035

2011-10-09 13:49  
xriak написано:
може не дошукався, але наприклад немає поеми "Сучасний літопис", написана орієнтовно в 1896 році
взагалі. 1894 р.

чомусь не розумію, звідки ви взяли, що ця поема у 20-томнику є? Happy
вона була вміщена у виданні: Мозаїка: Iз творів, що не ввійшли до Зібрання творів у 50 томах/ Іван Франко,; Укл. Зіновія Франко, Михайло Василенко,. -Львів: Каменяр, 2001.

це за інфою з неперевірених інтернетрів, але в "Мозаїці" поеми немаSad (1)

до речі, щодо 54-го тому:
http://ridna.ua/p/derzhkomteleradio-vidmovylos-vydavaty-knyhu-franka-z-nahody-joho-155-ji-richnytsi/
чомусь сумніваюся, що комусь із нас вдасться його дістатиSad (1)
Ooops 
Частий відвідувач


З нами з: 14.08.10
Востаннє: 13.10.19
Повідомлень: 33

2011-10-09 14:43  
54-й том є у Вернадці. Днями мав нагоду тримати й фотографувати дещицю з нього. Перепрошую, що не зробив весь для спільної справи, - елементарна нестача часу: приїхав на день, а опрацювати мусив півсотні видань і дисертацій.
Хто матиме час - його шифр у НБУВ: В326920/Т. 54.
Товстий, зараза.

Щодо поеми "Сучасний літопис".
Загалом-то вона 1884 року.
Міститься в 52 томі, на сторінках 39-70.
Том шукайте у нас в "Сирому матеріалі".
cizarion 
Оцифрування книг Гуртом
Оцифрування книг Гуртом


З нами з: 01.01.10
Востаннє: 14.10.19
Повідомлень: 2035

2011-10-09 15:59  
Ooops написано:
Том шукайте у нас в "Сирому матеріалі".
на днях завершу обробку
xriak 
Поважний учасник


З нами з: 05.12.08
Востаннє: 16.09.12
Повідомлень: 183

2011-10-09 17:14  
cizarion написано:
52

дякую!

2Ooops:
так все-таки 1894 чи 1884? щодо останньої цифри щиро сумніваюсь. може інший твір?

а 52-й том є вже?
cizarion 
Оцифрування книг Гуртом
Оцифрування книг Гуртом


З нами з: 01.01.10
Востаннє: 14.10.19
Повідомлень: 2035

2011-10-09 17:53  
xriak написано:
а 52-й том є вже?
cizarion написано:
на днях завершу обробку
balik2 
Оцифрування книг Гуртом
Оцифрування книг Гуртом


З нами з: 19.01.11
Востаннє: 16.10.19
Повідомлень: 1373

2011-10-10 14:27  
cizarion написано:
можеш мене трохи розвантажити і взяти 13-ий (у мене до нього ще руки не дійшли)

том 13 у мене на руках, найближчим часом відсканую Happy
Max_Linder 
Новенький


З нами з: 12.09.11
Востаннє: 11.05.17
Повідомлень: 14

2011-10-13 20:27  
Я можу відфотографувати щось)
Ваш часовий пояс: GMT + 2 Години

Нова тема   Відповісти Сторінка:   попередня  1, 2, 3, 4, 5  наступна