Mejora tu Inglés: inventar de nuevo subtítulos

1. Introducción

- Tatiana L., y es posible, vamos a ver esta película con subtítulos
? - No, pájaros carpinteros juveniles, que entrenan su percepción auditiva, por lo que las películas que miran sin ellos! Con subtítulos, usted acaba de leer el texto y no escuchas.
- Tatiana L., pero sin subtítulos, que más de la mitad no entienden
! - Pero este es su problema
principios de la década de 2000, un diálogo con el maestro en la escuela especial Francés, San Petersburgo
2 ... ¿Qué le pasa?
Programas de televisión y películas - una gran cosa para mejorar su Inglés. Usted ya conoce la gramática, posee un gran conjunto de palabras. Mantener una conversación gratis con nativos todavía es pronto, y pruebas de la práctica y ejercicios - es aburrido. Uno empieza a ver películas y programas de televisión.
Usted mira a sí mismo y ver. Parece que todo está claro, comprensible, pero luego comienza un diálogo rápido entre los dos personajes, de los cuales sólo se sabe excusas. De acuerdo, convertir los submarinos. Y los que resuelven el problema - que comienzan a entender lo que está sucediendo.
Sin embargo, al ver un par de videos con sabami, la gente a menudo notan dos cosas.
  • En lugar de entrenamiento de escucha a convertirse en un maestro de la velocidad de lectura Subs en un idioma extranjero. Ahora usted entiende la frase rápidamente, mirándola, pero la percepción auditiva progresa ligeramente. subs desactivar, se detienen de nuevo para entender lo que está sucediendo en algunas escenas en la pantalla. maestro de escuela Tatiana L. tenía razón, impidiéndonos ver películas francesas sabami - "pájaros carpinteros juveniles" y la verdad no se progresó en la escucha y el pensamiento lingüístico
  • Algunas áreas de la película permanecen completamente. incomprensible debido al hecho de que contienen palabras difíciles. «No puedo poner en peligro el éxito de mi empresa»? Lo que, lo siento? Poner en peligro? B>. De acuerdo, Google, puse la película en pausa, y dime lo que significa.
    Hay chicos que ofrecen para ver películas con subtítulos en dos idiomas - Inglés y ruso. Lo que le hace tener rápidamente un campeón absoluto en submarinos de lectura rápida en dos idiomas, sino que contribuye poco a la percepción auditiva y el desarrollo del pensamiento lingüístico.

     No hay submarinos no está claro nada, y con sabami impedían el progreso en la percepción auditiva y ... todavía no está claro.
    3. Ahora qué?

    En esta captura de pantalla de "South Park" visto 7 palabras. 6 de ellos son familiares para casi todos los estudiantes de Inglés. Y lo mejor son tan saber y entender, incluso si se hablan de forma rápida y con énfasis. Sigue habiendo una palabra, que (con una alta probabilidad) sea un problema. La palabra cansados ​​ -. Cansado cansado
  • , esta palabra no es tan común. Es muy probable que usted no reconoce por el oído.
Sería la derecha en la pantalla para mostrar la traducción. De lo contrario, o bien tienen que ser distraído y traducir con un diccionario, o simplemente para anotar y no busque más.
 Y el resto de la palabra puede ser desechado. Ellos saben casi todo y no necesitan mostrar en la pantalla. Si aplicamos esta lógica para el resto de la escena, obtenemos Saba, en el que sólo hay palabras difíciles, y el resto tenemos que escuchar y comprender.
Al final resultó que, esta idea no es nueva. Un gugling rápida mostró que al menos algunos bloggers han escrito artículos con la misma idea, pero se ofreció a hacer la adaptación manual de subtítulos. Y nosotros, los frikis, vamos a hacer una adaptación automática de los submarinos de software!
4. moto edificio
El problema se reduce a encontrar palabras difíciles en el texto que necesitan ser traducidos.
La idea básica es que se puede analizar ooooochen muchos textos en Inglés, el cálculo de las estadísticas sobre el uso de las palabras y entender que algunas palabras se utilizan con mucha menos frecuencia que otros. Estas pocas palabras, y caen bajo el concepto de "palabra compuesta" - que son raros, por lo que no saben la traducción y la escritura.
He trabajado todo esto como un hobby después del trabajo (por cierto, aquí está un artículo acerca de cómo comenzó todo). Todo esto dio lugar a proyectos de bambú Ninja, lo que nos permite analizar el libro en Inglés, encontrar las palabras difíciles en ellos, inserte la transferencia y recoger el libro de vuelta. Subtítulos - este es también el texto, por lo que va a tomar los acontecimientos allí y aplicarlos a los subtítulos
. Abrimos submarinos, partirlos en trozos, a continuación, en palabras individuales e iniciar el análisis. Para cada palabra, tenemos que resolver el problema de clasificación binaria - no tome la palabra a través de un algoritmo que devuelve la salida de 1 o 0 - es si la palabra sencilla para aprender Inglés o complejo. Su clasificador decisión hace sobre la base de los datos estadísticos obtenidos del análisis de ~ 40 GB de datos textuales de diversas fuentes (por lo general vale la pena para recopilar datos en realidad en muy diferentes fuentes :. destripar registros de chat, noticias, letras y yo era demasiado vago y se utiliza en los principales libros de texto pero más sobre esto más adelante).
Entonces hay una cierta cantidad de problemas con la base de datos, escribir código y activar los submarinos que se ven así

5. Vamos en una bicicleta construida
Me condujo a través de un programa de 3-4 docena de submarinos, los valores estimados de los parámetros que son emitidos por el analizador. Traté de ver películas que sucedieron. Mostró a amigos, conocidos y visitantes.
Para evaluar los resultados, he utilizado dos indicadores clásicos para tareas de aprendizaje automático: Read
Acc (precisión) - la capacidad de clasificar correctamente la palabra Integridad < / (recuerdo) - la capacidad de encontrar todas las palabras deben traducirse bayoneta ​​b> (bayoneta) en aquellos días, mucho más común de lo que es ahora, pero nuestro clasificador esa palabra no dice tan raro.
Aunque Colin, mi amigo de Gran Bretaña, siempre se rieron y dijeron que la expresión "mi bayoneta carne» (bayoneta de res) es muy común entre los militares, pero este evento no serán consideradas.
Decidí volver a la versión antigua del clasificador, que utilicé hace unos meses. Fue construido en el verano con sólo 500 libros grandes, pero los libros en esa muestra fueron más diversa, "Harry Potter", "Canción de hielo y fuego", la documentación técnica para los programadores, libros de psicología, medicina y más. Calificador con una cantidad más pequeña pero más diverso de los datos demostró ser un orden de magnitud mejor que el clasificador construido sólo en la literatura Inglés. algoritmo de reconocimiento de palabras se ha convertido en mucho menos errores comunes.
Este resultado es generalmente consistente con la meta, pero el algoritmo todavía produce Saba adecuado para una persona que tiene una experiencia considerable en el uso de Inglés. Es necesario tener una cierta habilidad en el reconocimiento de voz por el oído y el vocabulario tangible de varios miles de palabras básicas. En este caso, los submarinos se mantendrá en buen lugar para mejorar Inglés.
Todos sus experimentos I, diseñado para apoyar y sujetado a su sitio de la manía, y se añaden a la biblioteca de pequeños submarinos para aquellos que quieren probar una pieza que no está en el lugar.
6. Outro
Girar serie de vista previa en el proceso de aprendizaje en lugar de una lectura de pantalla romo parece tarea que vale la pena. Y la mejora del algoritmo permite el beneficio de muchos más noches.
Gracias a todos! Las buenas películas y el éxito en Inglés.
Fuente: geektimes.ru/post/271208/