Поліпшення англійської мови: Винахідні субтитри

1,1 км Інтро




- Тетяна Леонідівна, може дивитися цей фільм з субтитрами?
до Ні, дитячі дровари, ми навчимо сприйняття аудиторії, тому ви будете дивитися фільм без них! З субтитрами ви будете тільки читати текст і не слухати.
- Тетяна Леонідівна, але без субтитрів ми не розуміємо більше половини!
до Це ваша проблема.
Ранні 2000-ті роки, діалог з викладачем французької спеціальної школи, Санкт-Петербург.



2,2 км Що це таке?
Телевізори та фільми чудово підходять для покращення англійської мови. Ви вже знаєте граматику, ви знаєте багато слів. Це занадто рано, щоб зберегти безкоштовну розмову з рідним динаміком, і він вже нудний для практичних тестів і вправ. Ви починаєте перегляд фільмів і серіалів.

Ви шукаєте. Все здається чітким, але після чого починається швидкий діалог між двома героями, з яких ви розумієте тільки прийняття. Знайте, поверніть на овець. І вони вирішують проблему - ви починаєте розуміти, що відбувається.

Тим не менш, після перегляду кількох saba відео, люди часто помітили два речі.
  • Замість практикуючих слухань. Ви стаєте майстером читання швидкості. Саба в іноземній мові. Тепер ви швидко розумієте фразу просто, шукаючи на ньому, але слухняне сприйняття триває трохи. Увімкніть відображення сабів, ви знову перестаєте розуміти, що відбувається в деяких сценах на екрані. Школавчитель Тетяна Леонідівна була правою, заборонена нас дивитися французьки фільми з сабасом - «молоді деркери» дійсно не поступалися сприйняття вухо і мовного мислення.
  • Що Частини плівки залишаються повністю непереборними. Оскільки вони містять складні слова. "Я не можу." санкція Успіх компанії? Вибачте мене? Джеопардизація?й Знаю, Google, я збираюся паузати фільм і ви будете розповісти мені, що це означає.
    Є хлопці, які пропонують дивитися фільми з субтитрами на двох мовах одночасно - англійська і російська. Це швидко робить вас абсолютним чемпіоном з швидкісного читання Sabahs на двох мовах, але мало сприяє слуханню та розвитку мовного мислення.

Без ваг, нічого не зрозуміло, і з дабами, прогрес в слуховому сприйнятті пригнічений і ... це все ще не зрозуміло.

3. У Що?


Цей скріншот з South Park показує 7 слів. 6 з них знайомі практично для кожного вивчення англійської мови. Вони можуть бути визнані і зрозумілими, навіть якщо вони швидко сповіщали і з акцентом. Є одне слово, яке, ймовірно, є проблемою. Слова мила - втомлений, втомлений.

  • Це слово не дуже часто. Ви не чули.
  • Я хотів би бачити переклад на екрані. В іншому випадку, ви повинні бути відволікані і перевести з словником, або просто забити і виглядати далі.

Решта слів можна відкинути. Вони знайомі практично всім і не потрібно показувати на екрані. Якщо ми застосовуємо цю логіку на решту сцен, ми отримуємо сабас, в якому з'являються тільки складні слова, а решта нам доводиться слухати і розуміти.

Як виходить, ця ідея зовсім не нова. Флейт Google показав, що принаймні кілька блогерів написав статті з схожою ідеєю, але запропонував зробити адаптацію субтитрів вручну. І ми робимо автоматичну адаптацію програмного забезпечення Sabs!

4. У Побудувати велосипед.
Завдання полягає в тому, щоб знайти складні слова в тексті, які потребують перекладу.

Основна ідея полягає в тому, що ви можете проаналізувати багато текстів англійською мовою, розрахувати статистику про використання слів і зрозуміти, що деякі слова використовуються набагато рідше, ніж інші. Ці рідкісні слова падають під поняття «комплексне слово» – вони рідкісні, тому ви не знаєте їх переклад і написання.

Про те, як це все почалося. В рамках проекту Бамбо Ніндзя, який дозволяє проаналізувати книги англійською мовою, знайти складні слова в них, вставити переклад і зібрати книгу назад. Субтитри є текстом, тому я приймаю його звідти і застосувати його до субтитри.

Відкриваємо сабас, розбиваємо їх на шматки, потім в індивідуальні слова і починаємо аналіз. Для кожного слова нам необхідно вирішити задачу бінарної класифікації – запустити слово через алгоритм, який повертається на виході 1 або 0 – чи є слово простим для вивчення англійської мови або комплексу. Класифікатор приймає своє рішення на основі статистичних даних, отриманих з аналізу ~40 ГБ текстових даних з різних джерел (в цілому, варто зібрати дані з реально різних джерел: демонтажні журнали чатів, новини, слова). І я знаходився у більшості книг, але далі.

А потім є багато настоювання з базою, написання коду, а потім ви отримуєте шви, які виглядають щось схоже на це.


5. Умань Скаче вбудований велосипед
Я побігла 3-4 десятки сабів через програму, оцінюючи значення метричних показників, які давали аналізатор. Я спробував дивитися фільми з тим, що сталося. Покажіть друзям, знайомим та відвідувачам сайту.

Щоб оцінити результати, я використовував два класики для проблем машинного навчання:
  • точність Точність: Уміння правильно класифікувати слово
  • Повність Реліз: Уміння знайти всі слова, які вимагають перекладу
Метричні значення, як правило, стрибають з плівки до плівки. На деяких плівках повноти і точності показали 85%-90% від бажаного, а на інших - в області 55%. Після перекопування в задачу я знайшов, що більшість даних для статистичного аналізу я збираюся з фантастичних книг за останні 300 років, а деякі слова в них більш поширені, ніж у сучасної англійської. Наприклад, слово бетмен (байон) в той час був набагато частіше, ніж зараз, але наш класифікатор вважає це слово не так рідко.

Хоча Colin, друг шахти з Великобританії, сміхається протягом тривалого часу і сказав, що експресія "beef bayonet" тепер дуже поширена серед військових, ми не розглянемо цей випадок.

Я вирішив повернутися до старої версії класифікатора я використав кілька місяців тому. Будувався влітку, використовуючи лише 500 великих книг, але книги, в яких зразка були більш різноманітними: Гаррі Поттер, Пісня льоду та вогню, технічна документація для програмістів, книг з психології, медицини та багато іншого. Класифікатор з меншою, але більш різноманітною кількістю даних був порядок краще, ніж класифікатор побудований тільки на англійській фантастики. Алгоритм розпізнавання слів стає набагато більш неправильним.

В результаті, як правило, відповідає цілям, але алгоритм все ще виробляє сабас, придатний для людини з твердим досвідом використання англійської мови. Ви повинні мати певну майстерність при слуханні визнання і відчутний словник декількох тисяч базових слів. У цьому випадку сабас буде добре працювати в поліпшенні англійської мови.

Всі мої враження, які я був розроблений в сервісі і викручений на сайт хобі і додали їм невелику бібліотеку шабів для тих, хто хоче перевірити це, не залишаючи касового реєстру.

6. Жнівень Аутро
Перегляд телевізійних шоу в освітній процес замість читання з екрана виглядає як гідне завдання. Удосконалення алгоритму дозволить провести більше вечірок з користю.

Дякую! Хороші фільми та успіхи англійською мовою.

Джерело: geektimes.ru/post/271208/