Інструкції для роботи із субтитрами

Нові коментарі

Нова тема   Відповісти
Сторінка:   попередня  1, 2, 3, 4, 5, 6
Автор Повідомлення
leicheman 
Відео Гуртом - фільмокрай
Відео Гуртом - фільмокрай


З нами з: 03.07.14
Востаннє: 17.07.24
Повідомлень: 7347

2020-04-11 13:36  
igor911 написано:
може автозаміною в текстовому редакторі?


спрацювало, дякую)
Electroz 
Відео Гуртом - підтримка та поширення
Відео Гуртом - підтримка та поширення


З нами з: 18.09.14
Востаннє: 18.07.24
Повідомлень: 5267

2020-04-11 13:40  
leicheman написано:
Чи можна якось усе одразу <span style="defaultStyle_3"> по видаляти, а не в ручну у кожному рядку?

Subtitle Edit ---> Edit ---> Multiple replace
mastermob 
Поважний учасник


З нами з: 16.06.09
Востаннє: 18.07.24
Повідомлень: 188

2022-12-03 21:32  
Старенька тема але щось не видно програм для лінукса.
Я користувався "Редактор субтитрів" з офіційного репозиторія.
Як на мене досить зручно бачити субтитри, звукову доріжку і аудіодоріжку на якій ставляться мітки і одразу видно таймінги.
Nahalist 
VIP


З нами з: 13.12.13
Востаннє: 15.05.24
Повідомлень: 488

2023-06-12 16:48  
Привіт. Народ, хочу поділитись мультсеріалом 'Сільван 1994'. Але проблема - я б переклав і виклав би з українськими сабами та мова іспанська. Генератор сабів на YouTube тільки пару серій засабив, а інші не хоче. Може які проги є розпізнавання іспанської мови є і перетворить на саби? Дякую
Willox 
VIP


З нами з: 09.07.19
Востаннє: 18.07.24
Повідомлень: 304

2023-06-12 16:55  
Nahalist написано:
Може які проги є розпізнавання іспанської мови є і перетворить на саби? Дякую


Можна спробувати OpenAI Whisper, ніби безкоштовний та з відкритим кодом. Судячи з діаграм на гітхабі, іспанську він розпізнає навіть краще за англійську (Word Error Rate становить 3%, в той час як відсоток помилок для англійської 4.2%).
Nahalist 
VIP


З нами з: 13.12.13
Востаннє: 15.05.24
Повідомлень: 488

2023-06-12 18:57  
Willox написано:
Можна спробувати OpenAI Whisper, ніби безкоштовний та з відкритим кодом. Судячи з діаграм на гітхабі, іспанську він розпізнає навіть краще за англійську (Word Error Rate становить 3%, в той час як відсоток помилок для англійської 4.2%).

Поки що я не дуже зрозумів як там і що Sad (1)
Willox 
VIP


З нами з: 09.07.19
Востаннє: 18.07.24
Повідомлень: 304

2023-06-12 19:01  
Nahalist написано:
'Сільван 1994'


Спробував погратись з OpenAI Whisper, іспанської не знаю, але на слух результат ніби чудовий, ба більше - розпізнає навіть ділянки з великою кількістю шуму та сторонніх звуків.

Помітив, правда, лише два нюанси - розпізнавання почалось з 30-ої секунди, та в кінці згенерувало посилання на якийсь сайт для субтитрів (судячи з коментарів на гітхабі, це може бути аномалія моделі, яку я використовував).

Посилання на аудіо та транскрипцію: https://fex.net/uk/s/e24zzld

Якщо будуть якісь питання, стосовно використання Whisper, звертайтесь. Користувався ним вперше, тому з чимось складним навряд допоможу, але подібні базові речі зможу пояснити за потреби.
Nahalist 
VIP


З нами з: 13.12.13
Востаннє: 15.05.24
Повідомлень: 488

2023-06-13 00:07  
Willox написано:

Спробував погратись з OpenAI Whisper, іспанської не знаю, але на слух результат ніби чудовий, ба більше - розпізнає навіть ділянки з великою кількістю шуму та сторонніх звуків.

Помітив, правда, лише два нюанси - розпізнавання почалось з 30-ої секунди, та в кінці згенерувало посилання на якийсь сайт для субтитрів (судячи з коментарів на гітхабі, це може бути аномалія моделі, яку я використовував).

Посилання на аудіо та транскрипцію: https://fex.net/uk/s/e24zzld

Якщо будуть якісь питання, стосовно використання Whisper, звертайтесь. Користувався ним вперше, тому з чимось складним навряд допоможу, але подібні базові речі зможу пояснити за потреби.

Нажаль не можу оцінити , у мене якийсь каламбур в вашому VTT і я його не можу переконвертити нічим в srt. І чи могли б ви скинути мені відео, як ви там створювали саби в цьому Whisper. Дякую
ssTAss 
Загальний модератор Толоки


З нами з: 05.07.08
Востаннє: 18.07.24
Повідомлень: 23520

2023-06-13 00:24  
Nahalist написано:
я його не можу переконвертити нічим в srt

https://fex.net/uk/s/mcdmopv

Додано через 46 секунд:

Nahalist
користуйтесь Subtitle Edit, він все "їсть" і конвертить
Willox 
VIP


З нами з: 09.07.19
Востаннє: 18.07.24
Повідомлень: 304

2023-06-13 03:00  
Nahalist написано:
І чи могли б ви скинути мені відео, як ви там створювали саби в цьому Whisper.


Як такого відео немає, але накидав текстову покрокову інструкцію. Можливо, буде трохи нудно та багато води, але старався врахувати те, що можуть читати люди, які не мають ні найменшого уявлення з чого почати. Якщо інформації буде все що недостатньо - задавайте питання, спробую допомогти, якщо матиму можливість, але надіюсь, що описав все досить детально Happy
1. Потрібно завантажити саме відео, для якого треба створити субтитри і витягнути з нього звук.

Цей етап можна виконати безліччю способів, усе залежить від того, якими інструментами ви володієте. Для створення релізу, звичайно, потрібно знайти відео найкращої якості, але для демонстрації обмежимось звичайним варіантом з YouTube.

Для прикладу, візьмемо це відео:

Так як ми працюємо з відео з YouTube, то можна одразу завантажити лише аудіодоріжку. Я використовував yt-dlp, хоча для подібного сценарію можна використати будь-який онлайн сервіс за запитом yt2mp3 (YouTube to mp3).



Якщо ж у вас на руках є відеофайл, то на цьому етапі можна використати ffmpeg, чи якусь програму з графічним інтерфейсом, яка вам більш до вподоби. Головне - отримати аудіодоріжку, з якою працюватимемо.

В подальшому, отриманий аудіфайл згадуватиметься як "audio.m4a". Свій файл можете назвати інакше. Розширення теж може бути довільним (але перевіряв лише на m4a).
2. Трохи інформації про OpenAI Whisper, аби отримати базове уявлення про те, з чим і як ми будемо працювати.


Що таке OpenAI Whisper?

OpenAI Whisper це модель автоматичного розпізнавання мови, яку навчили на 680 000 годинах аудіо. Вона підтримує безліч різних мов (в тому числі й українську), і основна її задача перетворювати аудіо в текст (як субтитри, так і просто звичайний текст).

Це, насправді, все що про неї треба знати. Не потрібно заглиблюватись в те як ця модель працює, достатньо просто сприймати її як певний ящик, в який ми будемо закидати аудіо та отримувати на виході текст.

Що потрібно знати перед початком роботи?

Для роботи з цією моделлю потрібно всього дві речі - хорошу відеокарту та певний рівень володіння комп'ютером (бажано, звичайно, мати поверхневе розуміння мов програмування). Але я спробую спростити все настільки, наскільки можливо, при цьому прибравши потребу в обох умовах Happy

Для чого потрібна відеокарта?

Відеокарта (GPU) потрібна для роботи моделі нейронної мережі. Вона виконуватиме купу розрахунків, які й перетворюватимуть аудіо на текст. Всі вони можуть виконуватись і за допомогою процесора (CPU), але тобі процес триватиме дуже довго.

Що робити якщо в мене немає відеокарти?

Насправді, це не проблема. У цьому прикладі я використовуватиму Google Colab (Colaboratory), це сервіс від Google, який абсолютно безкоштово надає доступ будь-якому користувачу до обчислювальних ресурів, в тому числі й до відеокарт. Звісно, є певні обмеження, але для нас безкоштовних ресурсів має вистачити з головою.

Чому саме Colaboratory?

Причини всього дві:
1) Далеко не у всіх є дорогі та хороші відеокарти.
2) Використання Colab дозволяє оминути велику кількість технічних моментів та відкинути потребу в складних процесах попередніх налаштувань і підготовки.

Звичайно, якщо у вас є потужна відеокарта на кшталт RTX 3060, то буде більш раціонально проводити всі операції локально, але Google абсолютно безоплатно надає доступ до відеокарт, які значно кращі за ті, що є у середньостатистичного користувача, тому користуємось цим варіантом.

Що робити якщо я погано володію комп'ютером?

Не хвилюйтесь, спробую подати все якомога простіше, у вас все вийде Happy

Більш детальна інформація про OpenAI Whisper знаходиться на GitHub, але поки має вистачити того, що тут написано.
3. Безпосередньо процес роботи з OpenAI Whisper на базі Google Colab


1. Для початку йдемо на свій Google диск та створюємо там папку, в якій будемо працювати.

Заходимо на диск та натискаємо кнопку "Створити".



Обираємо пункт "Нова папка".



Вводимо назву та натискаємо "Створити".



2. Переходимо в цю папку і завантаєумо туди аудіо, яке треба перетворити на субтритри (його ми отримали раніше).



3. Створюємо "блокнот" (файл Google Colabratory).



На цьому етапі у вас може не бути опції "Google Colaboratory". Тоді обираєте опцію "Підключити інші додатки", в пошуку пишемо "Colab", та додаємо його.



4. Після того як ви натиснете "Створити", вас переадресує до наступного вікна:



5. Перше, що потрібно зробити - підключити відеокарту. Для цього натискаємо Runtime -> Change Runtime Type



У вікні обираємо Runtime Type обираємо Python 3, а в Hardware Accelerator - GPU. Після цього натискаємо Save.



6. Далі потрібно написати код (можна скопіювати мій нижче, в ньому потрібно буде виправити поля зі шляхами, якщо використовували відмінні від моїх)

Результат на скріншоті:



Увесь потрібний код в спойлерах, можна звірятись зі скріншотом вище. Прохання звернути увагу на табуляцію (або пробіли, немає різниці), на етапі запису до файлу, бо спойлери прибирають проібли/табуляцію.
Встановлюємо whisper

! pip install git+https://github.com/openai/whisper.git -q
Імпорт допоміжних бібліотек та підключення файлів з диска

import whisper # Імпортуємо його OpenAI Whisper
from datetime import timedelta # Імпортуємо шматочок модуля для роботи з часом
from google.colab import drive # Імпортуємо модуль для роботи з гугл диском

drive.mount('/content/drive/') # Підключаємо гугл диск до колаба (вилізе вікно, де попросять доступ до гугл диску)
folder_path = "/content/drive/MyDrive/OpenAI Whisper/" # Вказуємо шлях до папки на гугл диску, типово "/content/drive/MyDrive/Назва_вашої_папки_тут"
audio_path = folder_path + "audio.m4a" # Вказуємо шлях до аудіофайлу в папці
Завантаження моделі та траскрипція аудіо
model = whisper.load_model("large-v2") # Завантажуємо модель large-v2 (вона найважча, найповільніша, але й найбільш точна)
audio = whisper.load_audio(audio_path) # Завантажуємо аудіо з паки на гугл диску (передаємо шлях, що визначили вище)
result = model.transcribe(audio, language="es") # Проводимо транскрипцію (повільний етап, може зайняти багато часу), в параметрів language вказуємо мову (es - іспанська)
Збереження субтитрів у папку з аудіо (ЗАМІНІТЬ # СИМВОЛАМИ ТАБУЛЯЦІЇ АБО ПРОБІЛАМИ, спойлер ламає розмітку)
with open(f'{folder_path}transcription.vtt', 'w', encoding='utf-8') as f: # Відкриваємо файл на запис та записуємо результат на гугл диск.
#for segment in result['segments']:
##startTime = str(0) + str(timedelta(seconds=int(segment['start']))) + ',000'
##endTime = str(0) + str(timedelta(seconds=int(segment['end']))) + ',000'
##text = segment['text']
##segmentId = segment['id']+1
##print(f"{segmentId}\n{startTime} --> {endTime}\n{text.strip()}\n\n", file=f)
7. Все готово, натискаємо Runtime -> Run all, аби запустити код



8. Скоріш за все Colab попросить доступ до гугл диску, надаємо йому його, аби він міг отримати доступ до аудіофайлу та зберегти пізніше туди субтитри.



9. Чекаємо близько 7-ми хвилин, поки Google Colab завантажить модель та проведе транскрипцію аудіо. Тривалість залежить від розміру аудіофайлу.

Коли процес буде завершено, то біля усіх прямокутників з кодом з'являться зелені галочки.



А у папці, яку ми створили раніше, з'явиться файл з субтитрами.



На цьому все, дякую за увагу.
Nahalist 
VIP


З нами з: 13.12.13
Востаннє: 15.05.24
Повідомлень: 488

2023-06-13 10:41  
Willox написано:
Як такого відео немає, але накидав текстову

Мав на увазі запис відео з екрану зробити. Але все ж почитаю вашу інформацію Happy
UPD: перечитав, складнувато однако, особливо коли дійшло до 'допоміжних бібліотек'. Спробую якось
ssTAss написано:
https://fex.net/uk/s/mcdmopv

Дякую дуже
Blanove 
Поважний учасник


З нами з: 01.05.15
Востаннє: 05.07.24
Повідомлень: 212

2023-06-16 15:52  
Nahalist написано:
Привіт. Народ, хочу поділитись мультсеріалом 'Сільван 1994'. Але проблема - я б переклав і виклав би з українськими сабами та мова іспанська. Генератор сабів на YouTube тільки пару серій засабив, а інші не хоче. Може які проги є розпізнавання іспанської мови є і перетворить на саби? Дякую

Сервіс он лайн Sonix - простий до сорому Happy Завантаж файл і забирай через кілька хвилин (в залежності від часу тривалості файлу) свій srt. Але треба реєструватись (безкоштовно) і на кожну реєстрацію лиш 30хв аудіо /відео. Тобто якщо у вас мультсеріал, то створювати три десятки мейлів мабуть не порадує. Далі поки не знайшов
Толоківчанини 
VIP


З нами з: 12.01.21
Востаннє: 18.07.24
Повідомлень: 1263

2023-12-04 22:17  
Будь те добрі, підкажіть як мені з субтитри зпід 23фпс перегнати в 24
https://fex.net/uk/s/kndsrxc
вже і не пригадаю що і куди
volodyagrachenko 
Поважний учасник


З нами з: 22.07.12
Востаннє: 17.07.24
Повідомлень: 189

2023-12-04 22:28  
Толоківчанини написано:

Будь те добрі, підкажіть як мені з субтитри зпід 23фпс перегнати в 24
https://fex.net/uk/s/kndsrxc
вже і не пригадаю що і куди

Скопіюйте потрібні саби та накладіть на оригінал)
Толоківчанини 
VIP


З нами з: 12.01.21
Востаннє: 18.07.24
Повідомлень: 1263

2023-12-04 22:28  
volodyagrachenko написано:
Скопіюйте потрібні саби та накладіть на оригінал)

та я не геть дебіл
volodyagrachenko 
Поважний учасник


З нами з: 22.07.12
Востаннє: 17.07.24
Повідомлень: 189

2023-12-04 22:31  
Толоківчанини написано:
та я не геть дебіл

Була ще колись стара програма BDSup2Sub, там ніби то можна було бавитись з фпс. Але для чого якщо можна зробити простіше Happy
Neytreenor 
Відео Гуртом - запис з ТБ
Відео Гуртом - запис з ТБ


З нами з: 03.04.11
Востаннє: 18.07.24
Повідомлень: 4273

2023-12-04 22:33  
Толоківчанини
Наприклад, ось програмка https://www.videohelp.com/software/Subtitle-framerate-changer
volodyagrachenko 
Поважний учасник


З нами з: 22.07.12
Востаннє: 17.07.24
Повідомлень: 189

2023-12-04 22:57  
Толоківчанини написано:
https://fex.net/uk/s/kndsrxc

Так є ж вже засинхронені на opensubtitles, до речі) Та й ще як бачу вони оновлені, дещо було додано перекладачем.
https://fex.net/uk/s/48darvf
ssTAss 
Загальний модератор Толоки


З нами з: 05.07.08
Востаннє: 18.07.24
Повідомлень: 23520

2023-12-04 23:12  
Толоківчанини написано:
Будь те добрі, підкажіть як мені з субтитри зпід 23фпс перегнати в 24

якщо просто змінити фпс, то Subtitle Edit вміє (він майже все вміє)
Синхронізація - Змінити частоту кадрів


24 fps тут https://fex.net/uk/s/5on0k0k
але все ж таки б радив і перевірити через "Точкову синхронізацію через інші субтитри" в тому таки ж Subtitle Edit або хоча б порівняти з англійськими на око)
Ваш часовий пояс: GMT + 2 Години

Нова тема   Відповісти Сторінка:   попередня  1, 2, 3, 4, 5, 6