PLN (Procesamiento del Lenguaje Natural). COMPARACIÓN ENTRE CADENAS DE TEXTO


Introduce el texto ORIGINAL
Introduce el texto A COMPARAR
Stopwords[1]
Keywords[2]


RESULTADOS DE LA COMPARACIÓN

Medidas de extensión
Nº stopwords: 0 / Nº keywords: 0 CADENA ORIGINAL CADENA COMPARADA DIFERENCIA[3] % DIFERENCIA[3]
Nº palabras 0 0 0 0 %
Nº tokens[4] 0 0 0 0 %
Nº tokens (stemms[5]) no repetidos 0 0 0 0 %
Nº total sílabas 0 0 0 0 %
Nº oraciones 0 0 0 0 %
Nº párrafos 0 0 0 0 %

Medidas de densidad
CADENA ORIGINAL CADENA COMPARADA DIFERENCIA[3] % DIFERENCIA[3]
Media sílabas/palabra 0 0 0 0 %
Media palabras/oración 0 0 0 0 %
Media oraciones/párrafo 0 0 0 0 %
DL: Densidad Léxica[6] % % 0 0 %
OL: Originalidad Léxica[7] % % 0 0 %
SL: Sofisticación Léxica[8] % % 0 0 %
VL: Variación Léxica[9] % % 0 0 %

Medidas de consistencia interna
CADENA ORIGINAL CADENA COMPARADA DIFERENCIA[3] % DIFERENCIA[3]
Polisilábicas (3 o más sílabas) 0 0 0 0 %
Ratio polisilábicas/texto 0 0 0 0 %
Índice de legibilidad (Fernández Huerta)[10] 0 0 0 0 %
Índice de legibilidad (Szigriszt Pazos)[11] 0 0 0 0 %
Índice de legibilidad (García López)[12] 0 0 0 0 %

Detección de duplicados
CADENA DUPLICADA MÁS LARGA % de coincidencia
LCS (Longest Common Subsequence)[13] %

NOTAS:

[1] Stopwords: palabras asignificativas que son eliminadas en un proceso de normalización. Pueden introducirse más, o eliminar algunas de las que se muestran por defecto, separándolas por un espacio en blanco.
[2] Keywords: palabras clave que en algunos algoritmos se buscan en el documento comparado. Normalmente son palabras extraídas del texto original. Pueden introducirse las que se deseen, separándolas por un espacio en blanco.
[3] Valores negativos indican que el texto comparado posee mayor número de las características que se están comparando que el texto original.
[4] Tokens: palabras individuales que contiene un texto o documento. Si una palabra aparece tres veces en un texto, se dice que existen tres token de esa palabra.
[5] Stemms: tokens lexematizados, es decir, reducidos algorítmicamente a su raíz. Si se trata, como en esta aplicación, de tokens no repetidos, entonces se tienen los type, esto es la ‘clase’ de todos los token iguales (si en un documento aparece tres veces el término ‘suelo’, entonces se dice que el type ‘suelo’ tiene tres token ‘suelo’. Un token, pues, es cada una de las instancias de un type. En otras palanras, un type es único, en tanto los token son múltiples).
[6] La densidad léxica (DL) es la razón entre el número de palabras distintas que contiene un documento y el número total de palabras. En esta aplicación los documentos se han normalizado previamente, eliminando los stopwords y lexematizando las palabras.
[7] La originalidad léxica (OL) es la razón entre el número de palabras del documento o texto comparado que no aparecen en ninguno de los textos del corpus y el número total de palabras que contiene el corpus. En esta aplicación el corpus es un único texto, que llamamos texto original. La aplicación asume que el texto original posee una OL de 0 (0%), dado que al compararse consigo mismo el valor del numerador siempre será cero, y por tanto el valor de la razón también.
[8] La sofisticación léxica (SL) es la razón entre el número de palabras técnicas que contiene un documento o texto y el número total de palabras de dicho texto. La comparación se hace idealmente con respecto a un lexicon o vocabulario de términos técnicos del dominio de conocimiento al que pertenece el texto. Por ejemplo, si se está analizando un texto de filosofía, habría de disponerse de un diccionario, glosario o vocabulario de términos filosóficos para obtener la sofisticación léxica. En esta aplicación el cálculo de la SL asume como lexicon el conjuto de keywords que se introduzcan en la caja de texto correspondiente. Si no se introduce ningun keyword, la SL será 0 (0%).
[9] La variación léxica (VL) es la razón entre el número de types y el número de tokens que contiene un documento o texto.
[10] El índice de legibilidad (LEG) determina la facilidad o dificultad de lectura de un texto. El índice de 'lecturabilidad' de Fernández Huerta (1959) es una adaptación al español del índice de Flesh. Su fórmula es: LEG = 206,84 – 0,60*SP – 1,015*PO, donde 'SP' es el promedio del número de sílabas por palabras y 'PO' el es promedio del número de palabras por oración de un documento. Se recomienda tomar varias muestras de 100 palabras. El índice varía entre 0 y 100, siendo tanto más legible un texto cuanto más se aproxime su valor a 100.
[11] El índice de legibilidad (LEG) Szigriszt Pazos (1992) es una referencia en PNL en español. También se denomina 'índice de perspicuidad'. Su fórmula es: LEG = 206.835 - (62.3 * SP) - PO, donde 'SP' es el promedio del número de sílabas por palabras y 'PO' el es promedio del número de palabras por oración de un documento. El índice varía entre 0 y 100, siendo tanto más legible un texto cuanto más se aproxime su valor a 100.
[12] El índice de García López (2001) es parecido al de Fernández Huerta, con la salvedad de que aquél devuelve la edad a la que le corresponde un determinado nivel de estudios y, por tanto, a la que el texto habría de resultar comprensible para un sujeto con dicho nivel. EDAD = 7,1395 + 0,2495*PO + 6,4763*SP, donde 'SP' es el promedio del número de sílabas por palabras y 'PO' el es promedio del número de palabras por oración de un documento. La edad y el índice de legibilidad (LEG) pueden ser convertidos entre sí mediante las siguientes ecuaciones LEG = 93,0941 – 7,1395*EDAD y EDAD = 12,3578 – 0,1162*LEG. Para una comparación entre escalas de legibilidad, véase: Validación de la Escala INFLESZ para evaluar la legibilidad de los textos dirigidos a pacientes
[13] LCS (Longest Common Subsequence) es un algoritmo que recupera la subcadena más larga del texto comparado que coincida con una subcadena igual en el texto original. Se utiliza sobre todo en detección de plagio.



Francesc Llorens. 2015