LEAP: a Baseline to Evaluate Intrinsic Focusing Plagiarism
Transcripción
LEAP: a Baseline to Evaluate Intrinsic Focusing Plagiarism
LEAP: una referencia para la evaluación de sistemas de detección de plagio con enfoque intrínseco Diego A. Rodríguez-Torrejón1,2, José Manuel Martín-Ramos1 1 Universidad de Huelva, 2 IES José Caballero [email protected] [email protected] Resumen. La disponibilidad prácticamente ilimitada de documentos que ofrece Internet, facilita su utilización como fuentes para los casos de plagio. La localización o disponibilidad de dichas fuentes, no siempre es factible para los sistemas de detección de plagio. Entre los distintos enfoques de los sistemas de detección de plagio, el Intrínseco es aquel que intenta determinar si un documento sospechoso contiene algún fragmento con un estilo o complejidad inesperados respecto al resto del documento, que podría ser el resultado de la inserción de texto de una fuente externa. En este artículo, se propone un sencillo método a establecer como referencia de evaluación --Baseline-- (LEAP: Labeling Everything As Plagiarized) para sistemas de detección de plagio con enfoque intrínseco, así como una nueva y objetiva propuesta para evaluar la eficacia de estos sistemas. Palabras clave: baseline, evaluación, detección intrínseca de plagio. 1 Introducción Según el diccionario de la RAE, plagiar es copiar en lo sustancial obras ajenas, dándolas como propias. Con la llegada de Internet y la alta disponibilidad de todo tipo de publicaciones, el plagio de obras ajenas es más fácil que nunca, y la elevada cantidad de posibles documentos fuente dificulta enormemente el análisis ante un posible plagio. Desde 2009, se celebra la competición PAN1 [1], que desde sus inicios trata de fomentar el desarrollo de herramientas y sistemas que faciliten la lucha contra este tipo de delito/ofensa. Existen dos tipos de enfoque para sistemas de detección de plagio: • Enfoque Externo, en el que se pretende determinar la posible existencia de fragmentos plagiados, identificar la fuente del plagio, y la delimitación de dichos fragmentos tanto en el documento sospechoso como en su fuente de plagio. Para ello, es necesario poder disponer de dichos documentos fuente, bien procedentes de un corpus, bien de la web u otro sistema externo de recuperación de información. 1 http://pan.webis.de18/06/2012 • Enfoque Intrínseco, en el que se pretende detectar un posible cambio en el estilo de la escritura, o de la complejidad de algún fragmento del documento sospechoso respecto del resto del documento, como una probable inserción de un plagio de una fuente externa [2-3]. No existe por tanto necesidad previa de disponer de dichas fuentes ni de identificarlas, ya que el proceso no requiere comparación externa. No se pretende entrar en el dilema de cuál es mejor o peor, pues claramente cada sistema tiene sus propias limitaciones y ventajas, siendo el sistema idóneo aquel que combinara eficazmente ambas técnicas, para obtener una mejor eficacia que la que obtendría cada enfoque por separado. Sin embargo, en este artículo, se demuestra que para la valoración de sistemas de enfoque intrínseco, o combinación de enfoques, la metodología usada en la PAN, no es especialmente una clara indicadora de la eficacia del proceso de detección de plagio. En este artículo, se propone un sencillo algoritmo como Baseline, que ha de tomarse como referencia mínima para evaluar la efectividad de los sistemas que siguen el enfoque intrínseco (o combinado), y en consecuencia, un nuevo método para la evaluar la eficacia de estos sistemas. 2 La iniciativa PAN: Descubrir el plagio, la autoría y el mal uso del software social. En 2009, surge la 1ª Competición Internacional de Detección de Plagio, en el marco del taller PAN organizado dentro de la SEPLN2 2009, y ha continuado en sus posteriores ediciones en el marco de la CLEF3. Su objetivo ha sido fomentar el desarrollo de herramientas automáticas para la detección de plagio y actualmente también, la identificación de autoría y otros usos abusivos del software social (vandalismo en Wikipedia, detectar depredadores sexuales, etc.). Para ello, los organizadores de la competición, desarrollan y proporcionan cada nueva edición corpus con casos simulados de estos tipos de abuso, así como un marco de evaluación estándar. Como este artículo se centra en la tarea de la detección de plagio, nos limitaremos a nombrar brevemente los corpus para detección de plagio 4 (PAN-PC), y las medidas empleadas para comparar la efectividad de las distintas propuestas. Los PAN-PC pueden incluir de forma conjunta o separada, casos simulados de plagio, indicando sus correspondiente fuentes (disponibles en el mismo corpus) para la determinación por sistemas con enfoque externo o intrínseco, y otros casos cuyas 2 3 4 Sociedad Española para el Procesamiento del Lenguaje Natural. http://sepln.org Iniciativa CLEF (Conference and Labs of the Evaluation Forum, antes conocida como Cross-Language Evaluation Forum). http://www.clef-initiative.eu PAN-PC-YY (PAN - Plagiarism Corpus - año). Se hará referencia a la edición correspondiente como PAN-PC-09, PAN-PC-10 y PAN-PC-11 fuentes no están incluidas en dicho corpus, por lo que solo podrán ser detectadas por sistemas de enfoque intrínseco, al no existir posibilidad alguna de comparación. Para comparar la eficacia de los sistemas, se desarrollaron conceptos y medidas especiales [4, 5] para la naturaleza del problema y las características de los corpus a analizar. Algunas de estas medidas, como Recall (cobertura), Precision (precisión) y F-measure, son bien conocidas en el campo de la Recuperación de Información, pero han sido adaptadas para este problema con una versión macropromediada de las coberturas o precisiones, en su caso, obtenidas individualmente con base en caracteres de detecciones válidas5, para cada uno de los plagios simulados (cobertura) o de las detecciones existentes (precisión). Las fórmulas 1 y 2 detallan dicha adaptación. La medida F es la media armónica de ambas versiones adaptadas de Recall y Precision. También se crearon dos nuevas medidas: la Granularidad y el Plagdet. La Granularidad es una medida de usabilidad del sistema que indica el grado de fragmentación de las detecciones válidas. Se obtiene de la relación entre el número de detecciones válidas y el número de casos de plagios detectados (aunque sea parcialmente), según se detalla en la fórmula 3. Su valor mínimo y óptimo es 1. La medida Plagdet, acrónimo de Plagiarism Detection se creó especialmente para evaluar la eficacia de los sistemas de detección de plagio al analizar los corpus PAN, combinado los conceptos anteriores, según se indica en la fórmula 5. Obsérvese el ejemplo [1] de documento plagiado de la figura 1: Fig. 1: Documento representado como secuencia de caracteres, incluyendo las secciones plagiadas S y las detecciones R devueltas por el algoritmo de detección de plagio. La figura está dibujada a escala 1:n caracteres, siendo n >> 1. 5 Se considera que una detección es válida para sistemas de enfoque externo solo si tiene al menos un carácter detectado tanto en el documento sospechoso como en el documento fuente. En caso contrario toda la detección es considerada como falso positivo. Se denota S como el conjunto de casos de plagio en el corpus, y R como el conjunto de detecciones reportadas por un detector de plagio para los documentos sospechosos. Para simplificar la notación, un caso de plagio s , se representa como un conjunto de referencias a los caracteres de los documentos dplg y dsrc que forman los pasajes splg y ssrc, del modo s = splg , dplg , ssrc , dsrc , s ∈ S. Del mismo modo, una detección de plagio r ∈ R se representa como r. Basándonos en esta notación [4, 5], la precisión y cobertura de R bajo S pueden medirse como sigue: 1 Precision (S , R) = ∣R∣ 1 Recall (S , R) = ∣S∣ ∑∣ ∪s∈ S ( s ╥ r ) ∣ r ∈R (1) ∣r∣ ∑∣ ∪r ∈ R ( s ╥ r )∣ s ∈S (2) ∣s∣ { donde s ╥ r = s∩r si r detecta a s 0 en otro caso } Obsérvese que ni la precisión ni la cobertura tienen en cuenta el hecho de que los detectores de plagio a veces reportan solapamientos de múltiples detecciones de un mismo caso de plagio. Para compensar el déficit del sistema ante este hecho indeseado, también se cuantifica la granularidad del detector (fórmula 3), que penaliza las múltiples detecciones sobre el mismo plagio. Granularity ( S , R) = 1 ∣S R∣ ∑ ∣R s∣ (3) s∈ S R donde SR ⊆ S son los casos de plagio con detecciones en R, y RS ⊆ R son detecciones de S. Así, SR = {s | s ∈ S ∧ ∃r ∈ R : r detecta s} y Rs = {r | r ∈ R ∧ r detecta a s}. Finalmente, las tres medidas se combinan en un único indicador general, llamado Plagdet, según las fórmulas 4 y 5, donde Recall(S,R) y Precision(S,R) son la cobertura y la precisión del sistema (macropromediadas), F es la media armónica no ponderada de ambas y Granularity(S,R) la granularidad del conjunto de detecciones válidas. F= 2 Recall (S , R) Precision(S , R) Recall ( S , R)+ Precision( S , R) Plagdet = F log 2 (1+Granularidad ( S , R)) (4) (5) 3 Motivación La valoración de sistemas de enfoques combinados (intrínseco y externo), o la valoración combinada de sistemas independientes para ambos enfoques, ha sido una cuestión muy sensible y poco estable en el marco de desarrollo de las competiciones PAN desde su inicio6. Parece no encontrarse el sistema adecuado. Haciendo un breve repaso por la historia de la PAN podemos ver la evolución: • La edición PAN-09 [1], ponderaba de diferente forma las propuestas externa e intrínseca, por tener dos corpus separados para dichos enfoques, con diferentes cantidades de documentos y casos de plagio a evaluar, lo que en las valoraciones globales, favorecía a los sistemas externos (o compensaba en cierto modo por la posibilidad del intrínseco de analizar a ambos córpora). • La edición PAN-10 [6], unificó los corpus en uno solo, para fomentar la integración de los sistemas, con una única medida de su prestación final. Sin embargo, se consiguió mayoritariamente el efecto opuesto: el avanzado estado de desarrollo de los sistemas externos, con alta precisión en comparación con los intrínsecos, produce como resultado de su mezcla, una valoración final peor que si se presenta solo la propuesta externa. Algunos equipos participantes, como el ganador de la edición [7], aún disponiendo de un avanzado sistema intrínseco, renunciaron a mezclar los resultados con el objetivo de mejorar su puntuación final, sin presentar su propuesta intrínseca. • La edición PAN-11 [8], volvió a realizarse con dos corpus separados, y se tomó por primera vez como método de clasificación global de los equipos presentados, la media aritmética (no poderada) de las prestaciones Plagdet obtenidas por las propuestas externa e intrínseca de cada equipo, valorando en 0 (Plagdet parcial), la ausencia de alguna de las mencionadas propuestas. Con ello se fomenta por igual el desarrollo de ambos enfoques, y en especial, la presentación de ambos por todos los equipos. Queda claro que si se pretende destacar globalmente, todo participante desarrollador de sistemas externos, verá necesaria la inclusión de algún algoritmo, por malo que sea, que limite la ventaja de equipos con otras propuestas (y le aventaje sobre quienes no lo hagan). Además, un detector de enfoque intrínseco, puede realizar una detección parcial de casos externos (la sección plagiada del documento sospechoso), pudiendo atacar los 6 Desde el punto de vista de los autores de este artículo. casos de ambos tipos de plagio y puntuar en ambos córpora, si están separados, para mejorar la prestación global del sistema/equipo. Como consecuencia de lo expuesto, se pretendió crear una propuesta simple que minimizara la posible ventaja intrínseca y/o un sistema de valoración más objetivo para compensar dicha ventaja. Cualquier equipo de la competición podrá presentar dicha propuesta en futuras ediciones PAN si el sistema de valoración no es adaptado para evitar el desequilibrio, lo que le permitiría dar un pequeño “salto” (leap) en su puntuación global. 4 Baseline LEAP (Labeling Everything As Plagiarized) La propuesta de Baseline LEAP (Labelling Everything As Plagiarized) para sistemas de detección de plagio intrínsecos, consiste en marcar todos los documentos como plagiados de inicio a fin. Puede parecer poco ambiciosa, pero está fundamentada en las características de la detección de plagio intrínseca y de la composición de la medida Plagdet para este enfoque: • No es preciso identificar la fuente de plagio. • La detección debe estar poco fragmentada (penalizaría mucho la puntuación final). • Es deseable la máxima cobertura y precisión. En un sistema externo, o intrínseco, indicar que no hay ningún plagio, produce un Plagdet de 0.0 por convenio. En un sistema externo, con Ns documentos sospechosos y Nf documentos fuente, indicar que todo está plagiado de todo (estrategia LEAP), provoca en la práctica una puntuación muy próxima a 0, ya que habría que presentar Ns*Nf detecciones de plagio, de las cuales, se tendrán una cobertura máxima (1.0), cubriendo toda la colección, pero una precisión que dependería inversamente del número de probables fuentes existentes y directamente del promedio de porcentaje plagiado en cada documento sospechoso. En la práctica, y para una colección con Nf documentos fuente, la precisión será inferior, en el caso más favorable (todos los documentos sospechosos plagiados al 100% de sus fuentes completas) a 1/Nf . Cuando hablamos de corpus como los de PAN, con miles de documentos fuente (entre 7000 y 16000 documentos), supone una precisión máxima de 0.000143, por cubrirse todos los plagios sin fraccionamiento, y una puntuación Plagdet de 0.000286, por lo que tratándose del caso más favorable (aunque ilógico), se puede considerar despreciable. Para el corpus externo PAN-PC-11, de 11093 documentos fuente, con sus características de ratio de plagio por documento detalladas en [8], se ha calculado que el Plagdet de un algoritmo externo con estrategia LEAP sería tan solo de 0.00002982. Sin embargo, para un sistema intrínseco, en el que no hay que determinar la fuente de plagio, indicar que todo está plagiado de principio a fin, proporciona de cobertura 1.0 (máxima), granularidad 1.0 (óptima) y una precisión no despreciable, pues será equivalente al promedio de la proporción de plagio de todos los documentos sospechosos. Con todo ello, el Plagdet final obtenido será próximo al doble del promedio de la ratio interna de plagio en el conjunto de documentos sospechosos. La propuesta LEAP puede parecer a primera vista poco ambiciosa, pero como en PAN hay normalmente un 50% de documentos sospechosos plagiados, y un porcentaje promedio de plagio por documento que varía poco según la edición, pero que llega hasta el 30%, el Baseline puede obtener normalmente prestaciones Plagdet intrínsecas cercanas a 0.28 (y hasta de 1.0 en el ilógico caso más favorable de todo totalmente plagiado en el corpus intrínseco). 5 Implementación del Baseline LEAP La implementación del algoritmo, para el formato de PAN, computable por el script perfmeasures.py7, es tremendamente sencilla, bastando con generar para cada fichero sospechoso, otro con el contenido XML de análisis abajo detallado, sustituyendo las variables SUSPISCIOUS_FILENAME y SUSPCIOUS_FILE_LENGTH por el nombre y la longitud en bytes respectivamente del fichero sospechoso. <document xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation="http://www.uniweimar.de/medien/webis/research/corpora/pan-pc-09/document.x sd" reference="SUSPICIOUS_FILENAME"> <feature name="detected-plagiarism" this_offset="0" this_length="SUSPICIOUS_FILE_LENGTH"/> </document> 7 Script público en Python, desarrollado por la universidad de Weimar, para evaluar las prestaciones (sobre corpus PAN-PC) de sistemas de detección de plagio que etiqueten sus resultados según el esquema XML: http://www.uni-weimar.de/medien/webis/research/corpora/pan-pc-09/document.xsd 6 Experimentación Implementando este sencillo algoritmo para comprobar la suposición sobre los corpus PAN, se obtuvieron los resultados mostrados en la tabla 1. Tabla 1. Resultados del Baseline LEAP para los distintos PAN-PC intrínsecos Recall PAN-PC-09 PAN-PC-10 8 Precision Granularity Plagdet 1.0 0.101549617 1.0 0.184375930 0.590508545 0.160430627 1.0 0.252312463 9 1.0 0.059265298 1.0 0.111898877 PAN-PC-11 Tabla 2. Prestaciones del Baseline LEAP frente a las de algoritmos competidores en PAN. PAN-PC-09 Intrinsic Rank 1º 2º LEAP 3º 4º Plagdet 0.2462 0.1955 0.1844 0.1766 0.1219 --- --- 0.0558 --- --- PAN-PC-10 Intrinsic Rank Plagdet 1º 0.6948 10 LEAP 0.2523 2º PAN-PC-11 8 9 10 Intrinsic Rank 1º 2º LEAP 3º 4º Plagdet 0.3255 0.1679 0.1119 0.0841 0.0694 En esta edición se empleó un único corpus, mezclado los casos intrínsecos y externos. La extraña puntuación obtenida en PAN-PC-10, corresponde a la puntuación global del sistema sobre un corpus mixto. En estas condiciones, la cobertura supone el 50% en los casos plagio externo (solo la parte del documento sospechoso) y el 100% del intrínseco. Incluye la efectividad obtenida por el sistema externo combinado por este equipo. En la tabla 2, se presentan los valores obtenidos por LEAP (resaltados), comparándolos con los obtenidos por los diferentes algoritmos intrínsecos presentados en las distintas competiciones PAN. Como puede observase, aunque los valores obtenidos por LEAP parezcan bajos, no son nada despreciables, dado el estado del arte del enfoque intrínseco. 7 Nuevo sistema para evaluar propuestas intrínsecas y combinadas La valoración de un sistema de detección de plagio, debería estar en consonancia con su progreso sobre la prestación Plagdet del caso base LEAP, que no intenta detectar. Como se ha demostrado, el Plagdet de la estrategia LEAP, es despreciable en el caso de enfoque externo, pero es considerable para sistemas de enfoque intrínseco. Se propone una nueva medida para medir la efectividad de los sistemas de detección de plagio intrínsecos derivada de la actual, pero obtenida como la normalización de su progreso diferencial respecto al caso base. Esta nueva medida de efectividad, que se propone llamar Plagdet Diferencial Intrínseco ( dPlagdet ), se obtendrá de la expresión (3): dPlagdet = Plagdet − Plagdet LEAP 1 − Plagdet LEAP (3) Donde Plagdet es la efectividad obtenida por las detecciones del sistema intrínseco, aplicando directamente las fórmulas (1-2) y algoritmos que han servido hasta ahora para evaluarlos, y PlagdetLEAP, la efectividad que obtiene (por ese mismo método) LEAP sobre el mismo corpus. Para ello, los desarrolladores de los corpus podrían facilitar gentilmente el valor del Plagdet Intrínseco directo del Baseline LEAP (PlagdetLEAP), o en otro caso, y por tratarse de un algoritmo tremendamente fácil de implementar, podría obtenerlo experimentalmente cualquier desarrollador a partir del corpus. De este modo, deberían evitarse presentar propuestas que estén por debajo del Baseline LEAP, que obtendrían Plagdet diferencial negativo, correspondientes a metodologías conducentes a resultados peores que no hacer más que indicar “todo está totalmente plagiado”. Evaluación conjunta de propuestas dobles Para la evaluación combinada, los autores consideran que debería asumirse por defecto, que en la PAN, cualquier participante de sistemas externos podría sin esfuerzo usar el Baseline LEAP y presentar sus resultados para mejorar sus diferencias con el resto. Si no se hace así, se beneficiarán los pícaros en la clasificación global. Para normalizar esta irregularidad, la medida de prestación global de detección de plagio, se obtendría de (4) la semisuma del Plagdet directo del sistema externo, y del Plagdet Diferencial Intrínseco, tomándose el valor 0.0 como dPlagdetIntrínseco para aquellos equipos que no presenten propuesta intrínseca alguna, entendiéndose que presentan LEAP por defecto. Plagdet Global = Plagdet Externo + dPlagdet Intrínseco 2 (4) Gracias a esta nueva medida, la media de las prestaciones externas e intrínsecas no se verá fortalecida por la simple inclusión de un algoritmo intrínseco, sin importar su eficacia, sino que producirá incremento tan solo cuando es mínimamente efectivo. También se evita con ello la picaresca (justificada) de que se incluya el Baseline cuando se carezca de otra propuesta intrínseca, pero que podría perjudicar en la clasificación global a competidores que simplemente no la incluyan. La nueva medida anula dicha inclusión, haciéndola inefectiva y equiparable a no presentar propuesta. 8 Conclusiones Tras los estudios y experimentos realizados con el Baseline LEAP y la comparación de sus resultados respecto a las propuestas presentadas en anteriores ediciones de PAN, llegamos a las siguientes conclusiones: • El Baseline LEAP (o variantes minimales) puede ser empleado en futuras ediciones PAN por competidores de sistemas externos para minimizar la ventaja sobre otros que presenten propuestas intrínsecas, o aventajar a quienes no lo hagan. • La medida dPlagdet, que evalúa el progreso diferencial de una propuesta sobre la cómoda opción (pero muy significativa) de no analizar nada, parece más justa y realista, tanto para indicar el grado de bondad de los sistemas de enfoque intrínseco, como para valorar la combinación de propuestas externas e intrínsecas. • La medida dPlagdet es objetiva para la desestimación de propuestas con resultados inferiores al mínimo esfuerzo, ofreciendo una visión adecuada del progreso aportado por los algoritmos de enfoque intrínseco. • La medida dPlagdet, haría inefectiva la picaresca de la inclusión del Baseline LEAP o similares por competidores de sistemas externos, y elimina la ventaja que tiene implícita de partida cualquier sistema intrínseco de no necesitar esfuerzo para puntuar considerablemente. 9 Agradecimientos A los participantes en las distintas ediciones PAN por sus trabajos, y en especial al equipo organizador, por su iniciativa y recursos en continua mejora, pues han supuesto una fundamental ayuda, motivación y desafío constantes para el desarrollo de nuestros trabajos en este emergente campo. 10 Referencias 1. Martin Potthast, Benno Stein, Andreas Eiselt, Alberto Barrón-Cedeño, and Paolo Rosso. Overview of the 1st International Competition on Plagiarism Detection. In Benno Stein, Paolo Rosso, Efstathios Stamatatos, Moshe Koppel, and Eneko Agirre, editors, SEPLN 09 Workshop on Uncovering Plagiarism, Authorship, and Social Software Misuse (PAN 09), pages 1-9, September 2009. CEUR-WS.org. 2. Meyer zu Eissen, Sven and Benno Stein. 2006. Intrinsic plagiarism detection. In Mounia Lalmas, Andy MacFarlane, Stefan M. Rüger, Anastasios Tombros, Theodora Tsikrika, and Alexei Yavlinsky, editors, Proceedings of the 28th European Conference on Information Retrieval (ECIR 2006),London, volume 3936 of Lecture Notes in Computer Science, pages 565–569. Springer. 3. Benno Stein, Nedim Lipka, and Peter Prettenhofer. Intrinsic Plagiarism Analysis. Language Resources and Evaluation (LRE), 45 (1): 63-82, 2011. 4. Alberto Barrón-Cedeño, Martin Potthast, Paolo Rosso, Benno Stein, and Andreas Eiselt. Corpus and Evaluation Measures for Automatic Plagiarism Detection. In Nicoletta Calzolari, Khalid Choukri, Bente Maegaard, Joseph Mariani, Jan Odijk, Stelios Piperidis, Mike Rosner and Daniel Tapias, editors, 7th Conference on International Language Resources and Evaluation (LREC 10), May 2010. European Language Resources Association (ELRA). 5. Martin Potthast, Benno Stein, Alberto Barrón-Cedeño, and Paolo Rosso. An Evaluation Framework for Plagiarism Detection. In 23rd International Conference on Computational Linguistics (COLING 10), August 2010. Association for Computational Linguistics 6. Martin Potthast, Alberto Barrón-Cedeño, Andreas Eiselt, Benno Stein, and Paolo Rosso. Overview of the 2nd International Competition on Plagiarism Detection. In Martin Braschler and Donna Harman, editors, Notebook Papers of CLEF 10 Labs and Workshops, September 2010. 7. Jan Kasprzak and Michal Brandejs. Improving the Reliaility of the Plagiarism DetectionSystem: Lab Report for PAN at CLEF 2010. In Braschler et al. [9]. 8. Martin Potthast, Andreas Eiselt, Alberto Barrón-Cedeño, Benno Stein, and Paolo Rosso. Overview of the 3rd International Competition on Plagiarism Detection. In Vivien Petras, Pamela Forner, and Paul D. Clough, editors, Notebook Papers of CLEF 11 Labs and Workshops, September 2011. 9. Braschler, Harman, and Pianta, editors. Notebook Papers of CLEF 2010 LABs and Workshops, 22-23 September, Padua, Italy, 2010. ISBN 978-88-904810-0-0.