Інструкції для роботи із субтитрами

Толока » Новини »

Інструкції

Кодування, субтитри, запис, програми та інше

Автор

Повідомлення

leicheman
Відео Гуртом - фільмокрай

З нами з: 03.07.14
Востаннє: 06.12.25
Повідомлень: 7364

2020-04-11 12:36

igor911 написано:

може автозаміною в текстовому редакторі?

спрацювало, дякую)

Electroz
Відео Гуртом - підтримка та поширення

З нами з: 18.09.14
Востаннє: 01.01.26
Повідомлень: 5273

2020-04-11 12:40

leicheman написано:

Чи можна якось усе одразу <span style="defaultStyle_3"> по видаляти, а не в ручну у кожному рядку?

Subtitle Edit ---> Edit ---> Multiple replace

mastermob
Поважний учасник

З нами з: 16.06.09
Востаннє: 01.01.26
Повідомлень: 192

2022-12-03 20:32

Старенька тема але щось не видно програм для лінукса.
Я користувався "Редактор субтитрів" з офіційного репозиторія.
Як на мене досить зручно бачити субтитри, звукову доріжку і аудіодоріжку на якій ставляться мітки і одразу видно таймінги.

Nahalist
VIP

З нами з: 12.12.13
Востаннє: 20.12.25
Повідомлень: 510

2023-06-12 15:48

Привіт. Народ, хочу поділитись мультсеріалом 'Сільван 1994'. Але проблема - я б переклав і виклав би з українськими сабами та мова іспанська. Генератор сабів на YouTube тільки пару серій засабив, а інші не хоче. Може які проги є розпізнавання іспанської мови є і перетворить на саби? Дякую

Willox
VIP

З нами з: 09.07.19
Востаннє: 01.01.26
Повідомлень: 315

2023-06-12 15:55

Nahalist написано:

Може які проги є розпізнавання іспанської мови є і перетворить на саби? Дякую

Можна спробувати OpenAI Whisper, ніби безкоштовний та з відкритим кодом. Судячи з діаграм на гітхабі, іспанську він розпізнає навіть краще за англійську (Word Error Rate становить 3%, в той час як відсоток помилок для англійської 4.2%).

Nahalist
VIP

З нами з: 12.12.13
Востаннє: 20.12.25
Повідомлень: 510

2023-06-12 17:57

Willox написано:

Поки що я не дуже зрозумів як там і що Sad (1)

Willox
VIP

З нами з: 09.07.19
Востаннє: 01.01.26
Повідомлень: 315

2023-06-12 18:01

Nahalist написано:

'Сільван 1994'

Спробував погратись з OpenAI Whisper, іспанської не знаю, але на слух результат ніби чудовий, ба більше - розпізнає навіть ділянки з великою кількістю шуму та сторонніх звуків.

Помітив, правда, лише два нюанси - розпізнавання почалось з 30-ої секунди, та в кінці згенерувало посилання на якийсь сайт для субтитрів (судячи з коментарів на гітхабі, це може бути аномалія моделі, яку я використовував).

Посилання на аудіо та транскрипцію: https://fex.net/uk/s/e24zzld

Якщо будуть якісь питання, стосовно використання Whisper, звертайтесь. Користувався ним вперше, тому з чимось складним навряд допоможу, але подібні базові речі зможу пояснити за потреби.

Nahalist
VIP

З нами з: 12.12.13
Востаннє: 20.12.25
Повідомлень: 510

2023-06-12 23:07

Willox написано:

Нажаль не можу оцінити , у мене якийсь каламбур в вашому VTT і я його не можу переконвертити нічим в srt. І чи могли б ви скинути мені відео, як ви там створювали саби в цьому Whisper. Дякую

ssTAss
Загальний модератор Толоки

З нами з: 05.07.08
Востаннє: 01.01.26
Повідомлень: 23488

2023-06-12 23:24

Nahalist написано:

я його не можу переконвертити нічим в srt

https://fex.net/uk/s/mcdmopv

Додано через 46 секунд:

Nahalist
користуйтесь Subtitle Edit, він все "їсть" і конвертить

Willox
VIP

З нами з: 09.07.19
Востаннє: 01.01.26
Повідомлень: 315

2023-06-13 02:00

Nahalist написано:

І чи могли б ви скинути мені відео, як ви там створювали саби в цьому Whisper.

Як такого відео немає, але накидав текстову покрокову інструкцію. Можливо, буде трохи нудно та багато води, але старався врахувати те, що можуть читати люди, які не мають ні найменшого уявлення з чого почати. Якщо інформації буде все що недостатньо - задавайте питання, спробую допомогти, якщо матиму можливість, але надіюсь, що описав все досить детально Happy

1. Потрібно завантажити саме відео, для якого треба створити субтитри і витягнути з нього звук.

Цей етап можна виконати безліччю способів, усе залежить від того, якими інструментами ви володієте. Для створення релізу, звичайно, потрібно знайти відео найкращої якості, але для демонстрації обмежимось звичайним варіантом з YouTube.

Для прикладу, візьмемо це відео:

Так як ми працюємо з відео з YouTube, то можна одразу завантажити лише аудіодоріжку. Я використовував yt-dlp, хоча для подібного сценарію можна використати будь-який онлайн сервіс за запитом yt2mp3 (YouTube to mp3).

Якщо ж у вас на руках є відеофайл, то на цьому етапі можна використати ffmpeg, чи якусь програму з графічним інтерфейсом, яка вам більш до вподоби. Головне - отримати аудіодоріжку, з якою працюватимемо.

В подальшому, отриманий аудіфайл згадуватиметься як "audio.m4a". Свій файл можете назвати інакше. Розширення теж може бути довільним (але перевіряв лише на m4a).

2. Трохи інформації про OpenAI Whisper, аби отримати базове уявлення про те, з чим і як ми будемо працювати.

Що таке OpenAI Whisper?

OpenAI Whisper це модель автоматичного розпізнавання мови, яку навчили на 680 000 годинах аудіо. Вона підтримує безліч різних мов (в тому числі й українську), і основна її задача перетворювати аудіо в текст (як субтитри, так і просто звичайний текст).

Це, насправді, все що про неї треба знати. Не потрібно заглиблюватись в те як ця модель працює, достатньо просто сприймати її як певний ящик, в який ми будемо закидати аудіо та отримувати на виході текст.

Що потрібно знати перед початком роботи?

Для роботи з цією моделлю потрібно всього дві речі - хорошу відеокарту та певний рівень володіння комп'ютером (бажано, звичайно, мати поверхневе розуміння мов програмування). Але я спробую спростити все настільки, наскільки можливо, при цьому прибравши потребу в обох умовах Happy

Для чого потрібна відеокарта?

Відеокарта (GPU) потрібна для роботи моделі нейронної мережі. Вона виконуватиме купу розрахунків, які й перетворюватимуть аудіо на текст. Всі вони можуть виконуватись і за допомогою процесора (CPU), але тобі процес триватиме дуже довго.

Що робити якщо в мене немає відеокарти?

Насправді, це не проблема. У цьому прикладі я використовуватиму Google Colab (Colaboratory), це сервіс від Google, який абсолютно безкоштово надає доступ будь-якому користувачу до обчислювальних ресурів, в тому числі й до відеокарт. Звісно, є певні обмеження, але для нас безкоштовних ресурсів має вистачити з головою.

Чому саме Colaboratory?

Причини всього дві:
1) Далеко не у всіх є дорогі та хороші відеокарти.
2) Використання Colab дозволяє оминути велику кількість технічних моментів та відкинути потребу в складних процесах попередніх налаштувань і підготовки.

Звичайно, якщо у вас є потужна відеокарта на кшталт RTX 3060, то буде більш раціонально проводити всі операції локально, але Google абсолютно безоплатно надає доступ до відеокарт, які значно кращі за ті, що є у середньостатистичного користувача, тому користуємось цим варіантом.

Що робити якщо я погано володію комп'ютером?

Не хвилюйтесь, спробую подати все якомога простіше, у вас все вийде Happy

Більш детальна інформація про OpenAI Whisper знаходиться на GitHub, але поки має вистачити того, що тут написано.

3. Безпосередньо процес роботи з OpenAI Whisper на базі Google Colab

1. Для початку йдемо на свій Google диск та створюємо там папку, в якій будемо працювати.

Заходимо на диск та натискаємо кнопку "Створити".

Обираємо пункт "Нова папка".

Вводимо назву та натискаємо "Створити".

2. Переходимо в цю папку і завантаєумо туди аудіо, яке треба перетворити на субтритри (його ми отримали раніше).

3. Створюємо "блокнот" (файл Google Colabratory).

На цьому етапі у вас може не бути опції "Google Colaboratory". Тоді обираєте опцію "Підключити інші додатки", в пошуку пишемо "Colab", та додаємо його.

4. Після того як ви натиснете "Створити", вас переадресує до наступного вікна:

5. Перше, що потрібно зробити - підключити відеокарту. Для цього натискаємо Runtime -> Change Runtime Type

У вікні обираємо Runtime Type обираємо Python 3, а в Hardware Accelerator - GPU. Після цього натискаємо Save.

6. Далі потрібно написати код (можна скопіювати мій нижче, в ньому потрібно буде виправити поля зі шляхами, якщо використовували відмінні від моїх)

Результат на скріншоті:

Увесь потрібний код в спойлерах, можна звірятись зі скріншотом вище. Прохання звернути увагу на табуляцію (або пробіли, немає різниці), на етапі запису до файлу, бо спойлери прибирають проібли/табуляцію.

Встановлюємо whisper

! pip install git+https://github.com/openai/whisper.git -q

Імпорт допоміжних бібліотек та підключення файлів з диска

import whisper # Імпортуємо його OpenAI Whisper
from datetime import timedelta # Імпортуємо шматочок модуля для роботи з часом
from google.colab import drive # Імпортуємо модуль для роботи з гугл диском

drive.mount('/content/drive/') # Підключаємо гугл диск до колаба (вилізе вікно, де попросять доступ до гугл диску)
folder_path = "/content/drive/MyDrive/OpenAI Whisper/" # Вказуємо шлях до папки на гугл диску, типово "/content/drive/MyDrive/Назва_вашої_папки_тут"
audio_path = folder_path + "audio.m4a" # Вказуємо шлях до аудіофайлу в папці

Завантаження моделі та траскрипція аудіо

model = whisper.load_model("large-v2") # Завантажуємо модель large-v2 (вона найважча, найповільніша, але й найбільш точна)
audio = whisper.load_audio(audio_path) # Завантажуємо аудіо з паки на гугл диску (передаємо шлях, що визначили вище)
result = model.transcribe(audio, language="es") # Проводимо транскрипцію (повільний етап, може зайняти багато часу), в параметрів language вказуємо мову (es - іспанська)

Збереження субтитрів у папку з аудіо (ЗАМІНІТЬ # СИМВОЛАМИ ТАБУЛЯЦІЇ АБО ПРОБІЛАМИ, спойлер ламає розмітку)

with open(f'{folder_path}transcription.vtt', 'w', encoding='utf-8') as f: # Відкриваємо файл на запис та записуємо результат на гугл диск.
#for segment in result['segments']:
##startTime = str(0) + str(timedelta(seconds=int(segment['start']))) + ',000'
##endTime = str(0) + str(timedelta(seconds=int(segment['end']))) + ',000'
##text = segment['text']
##segmentId = segment['id']+1
##print(f"{segmentId}\n{startTime} --> {endTime}\n{text.strip()}\n\n", file=f)

7. Все готово, натискаємо Runtime -> Run all, аби запустити код

8. Скоріш за все Colab попросить доступ до гугл диску, надаємо йому його, аби він міг отримати доступ до аудіофайлу та зберегти пізніше туди субтитри.

9. Чекаємо близько 7-ми хвилин, поки Google Colab завантажить модель та проведе транскрипцію аудіо. Тривалість залежить від розміру аудіофайлу.

Коли процес буде завершено, то біля усіх прямокутників з кодом з'являться зелені галочки.

А у папці, яку ми створили раніше, з'явиться файл з субтитрами.

На цьому все, дякую за увагу.

Nahalist
VIP

З нами з: 12.12.13
Востаннє: 20.12.25
Повідомлень: 510

2023-06-13 09:41

Willox написано:

Як такого відео немає, але накидав текстову

Мав на увазі запис відео з екрану зробити. Але все ж почитаю вашу інформацію Happy

UPD: перечитав, складнувато однако, особливо коли дійшло до 'допоміжних бібліотек'. Спробую якось

ssTAss написано:

https://fex.net/uk/s/mcdmopv

Дякую дуже

Blanove
Поважний учасник

З нами з: 01.05.15
Востаннє: 08.12.25
Повідомлень: 236

2023-06-16 14:52

Nahalist написано:

Сервіс он лайн Sonix - простий до сорому Happy

Завантаж файл і забирай через кілька хвилин (в залежності від часу тривалості файлу) свій srt. Але треба реєструватись (безкоштовно) і на кожну реєстрацію лиш 30хв аудіо /відео. Тобто якщо у вас мультсеріал, то створювати три десятки мейлів мабуть не порадує. Далі поки не знайшов

Толоківчанини
VIP

З нами з: 12.01.21
Востаннє: 31.12.25
Повідомлень: 1263

2023-12-04 21:17
Будь те добрі, підкажіть як мені з субтитри зпід 23фпс перегнати в 24 https://fex.net/uk/s/kndsrxc вже і не пригадаю що і куди

volodyagrachenko
VIP

З нами з: 22.07.12
Востаннє: 05.10.25
Повідомлень: 298

2023-12-04 21:28

Толоківчанини написано:

Будь те добрі, підкажіть як мені з субтитри зпід 23фпс перегнати в 24
https://fex.net/uk/s/kndsrxc
вже і не пригадаю що і куди

Скопіюйте потрібні саби та накладіть на оригінал)

Толоківчанини
VIP

З нами з: 12.01.21
Востаннє: 31.12.25
Повідомлень: 1263

2023-12-04 21:28

volodyagrachenko написано:

Скопіюйте потрібні саби та накладіть на оригінал)

та я не геть дебіл

volodyagrachenko
VIP

З нами з: 22.07.12
Востаннє: 05.10.25
Повідомлень: 298

2023-12-04 21:31

Толоківчанини написано:

та я не геть дебіл

Була ще колись стара програма BDSup2Sub, там ніби то можна було бавитись з фпс. Але для чого якщо можна зробити простіше Happy

Neytreenor
Відео Гуртом - запис з ТБ

З нами з: 03.04.11
Востаннє: 01.01.26
Повідомлень: 4428

2023-12-04 21:33
Толоківчанини Наприклад, ось програмка https://www.videohelp.com/software/Subtitle-framerate-changer

volodyagrachenko
VIP

З нами з: 22.07.12
Востаннє: 05.10.25
Повідомлень: 298

2023-12-04 21:57

Толоківчанини написано:

https://fex.net/uk/s/kndsrxc

Так є ж вже засинхронені на opensubtitles, до речі) Та й ще як бачу вони оновлені, дещо було додано перекладачем.
https://fex.net/uk/s/48darvf

ssTAss
Загальний модератор Толоки

З нами з: 05.07.08
Востаннє: 01.01.26
Повідомлень: 23488

2023-12-04 22:12

Толоківчанини написано:

Будь те добрі, підкажіть як мені з субтитри зпід 23фпс перегнати в 24

якщо просто змінити фпс, то Subtitle Edit вміє (він майже все вміє)
Синхронізація - Змінити частоту кадрів

24 fps тут https://fex.net/uk/s/5on0k0k
але все ж таки б радив і перевірити через "Точкову синхронізацію через інші субтитри" в тому таки ж Subtitle Edit або хоча б порівняти з англійськими на око)

Nahalist
VIP

З нами з: 12.12.13
Востаннє: 20.12.25
Повідомлень: 510

2024-09-25 22:54

Толоківчанини написано:

Будь те добрі, підкажіть як мені з субтитри зпід 23фпс перегнати в 24
https://fex.net/uk/s/kndsrxc
вже і не пригадаю що і куди

Чесно - навіть уявлення не маю, як фізично таке програма якась може робити. Про відос чи навіть аудіо ще якось зрозуміти можна, а саби - що саме з ними робить прога аби fps змінились - у сабів же немає ніяких кадрів, тобто frames

А тепер стосовно створення сабів - колись питав, як створити саби, тобто є Мульт, там балакають іспанською, мені перекладуть, але не на слух звісно. В неті є сервіси платні і заморочливі. Шукаю безплатні. Знаходив просто перекод з аудіо в текст - таке звісно не канає, треба ж і таймкоди. Знаходив таке, що по 14 секунд виділяє на фразу, звісно це маса тексту на екрані буде, теж не воно
ОСЬ

https://transcri.io/en/subtitle-generator/srt

Але тут 8хв або 10мб файл, при безкоштовній реєстрації 15хв/20mb, треба аби хоч трохи довше приймало, бо це довга робота буде з такими обмеженнями

Ваш часовий пояс: GMT + 2 Години

	Сторінка: попередня 1, 2, 3, 4, 5, 6

Інформація для правовласників