LEAP: a Baseline to Evaluate Intrinsic Focusing Plagiarism

Transcripción

LEAP: a Baseline to Evaluate Intrinsic Focusing Plagiarism
LEAP: una referencia para la evaluación de
sistemas de detección de plagio con enfoque intrínseco
Diego A. Rodríguez-Torrejón1,2, José Manuel Martín-Ramos1
1
Universidad de Huelva, 2 IES José Caballero
[email protected]
[email protected]
Resumen. La disponibilidad prácticamente ilimitada de documentos que ofrece
Internet, facilita su utilización como fuentes para los casos de plagio. La
localización o disponibilidad de dichas fuentes, no siempre es factible para los
sistemas de detección de plagio.
Entre los distintos enfoques de los
sistemas de detección de plagio, el Intrínseco es aquel que intenta determinar si
un documento sospechoso contiene algún fragmento con un estilo o
complejidad inesperados respecto al resto del documento, que podría ser el
resultado de la inserción de texto de una fuente externa.
En este artículo, se
propone un sencillo método a establecer como referencia de evaluación
--Baseline-- (LEAP: Labeling Everything As Plagiarized) para sistemas de
detección de plagio con enfoque intrínseco, así como una nueva y objetiva
propuesta para evaluar la eficacia de estos sistemas.
Palabras clave: baseline, evaluación, detección intrínseca de plagio.
1
Introducción
Según el diccionario de la RAE, plagiar es copiar en lo sustancial obras ajenas,
dándolas como propias. Con la llegada de Internet y la alta disponibilidad de todo tipo
de publicaciones, el plagio de obras ajenas es más fácil que nunca, y la elevada
cantidad de posibles documentos fuente dificulta enormemente el análisis ante un
posible plagio. Desde 2009, se celebra la competición PAN1 [1], que desde sus inicios
trata de fomentar el desarrollo de herramientas y sistemas que faciliten la lucha contra
este tipo de delito/ofensa.
Existen dos tipos de enfoque para sistemas de detección de plagio:
• Enfoque Externo, en el que se pretende determinar la posible existencia de
fragmentos plagiados, identificar la fuente del plagio, y la delimitación de dichos
fragmentos tanto en el documento sospechoso como en su fuente de plagio. Para
ello, es necesario poder disponer de dichos documentos fuente, bien procedentes de
un corpus, bien de la web u otro sistema externo de recuperación de información.
1
http://pan.webis.de18/06/2012
• Enfoque Intrínseco, en el que se pretende detectar un posible cambio en el estilo
de la escritura, o de la complejidad de algún fragmento del documento sospechoso
respecto del resto del documento, como una probable inserción de un plagio de una
fuente externa [2-3]. No existe por tanto necesidad previa de disponer de dichas
fuentes ni de identificarlas, ya que el proceso no requiere comparación externa.
No se pretende entrar en el dilema de cuál es mejor o peor, pues claramente cada
sistema tiene sus propias limitaciones y ventajas, siendo el sistema idóneo aquel que
combinara eficazmente ambas técnicas, para obtener una mejor eficacia que la que
obtendría cada enfoque por separado.
Sin embargo, en este artículo, se demuestra que para la valoración de sistemas de
enfoque intrínseco, o combinación de enfoques, la metodología usada en la PAN, no
es especialmente una clara indicadora de la eficacia del proceso de detección de
plagio. En este artículo, se propone un sencillo algoritmo como Baseline, que ha de
tomarse como referencia mínima para evaluar la efectividad de los sistemas que
siguen el enfoque intrínseco (o combinado), y en consecuencia, un nuevo método para
la evaluar la eficacia de estos sistemas.
2
La iniciativa PAN: Descubrir el plagio, la autoría y el mal uso
del software social.
En 2009, surge la 1ª Competición Internacional de Detección de Plagio, en el
marco del taller PAN organizado dentro de la SEPLN2 2009, y ha continuado en sus
posteriores ediciones en el marco de la CLEF3. Su objetivo ha sido fomentar el
desarrollo de herramientas automáticas para la detección de plagio y actualmente
también, la identificación de autoría y otros usos abusivos del software social
(vandalismo en Wikipedia, detectar depredadores sexuales, etc.). Para ello, los
organizadores de la competición, desarrollan y proporcionan cada nueva edición
corpus con casos simulados de estos tipos de abuso, así como un marco de evaluación
estándar. Como este artículo se centra en la tarea de la detección de plagio, nos
limitaremos a nombrar brevemente los corpus para detección de plagio 4 (PAN-PC), y
las medidas empleadas para comparar la efectividad de las distintas propuestas.
Los PAN-PC pueden incluir de forma conjunta o separada, casos simulados de
plagio, indicando sus correspondiente fuentes (disponibles en el mismo corpus) para
la determinación por sistemas con enfoque externo o intrínseco, y otros casos cuyas
2
3
4
Sociedad Española para el Procesamiento del Lenguaje Natural. http://sepln.org
Iniciativa CLEF (Conference and Labs of the Evaluation Forum, antes conocida como
Cross-Language Evaluation Forum). http://www.clef-initiative.eu
PAN-PC-YY (PAN - Plagiarism Corpus - año). Se hará referencia a la edición
correspondiente como PAN-PC-09, PAN-PC-10 y PAN-PC-11
fuentes no están incluidas en dicho corpus, por lo que solo podrán ser detectadas por
sistemas de enfoque intrínseco, al no existir posibilidad alguna de comparación.
Para comparar la eficacia de los sistemas, se desarrollaron conceptos y medidas
especiales [4, 5] para la naturaleza del problema y las características de los corpus a
analizar. Algunas de estas medidas, como Recall (cobertura), Precision (precisión) y
F-measure, son bien conocidas en el campo de la Recuperación de Información, pero
han sido adaptadas para este problema con una versión macropromediada de las
coberturas o precisiones, en su caso, obtenidas individualmente con base en caracteres
de detecciones válidas5, para cada uno de los plagios simulados (cobertura) o de las
detecciones existentes (precisión). Las fórmulas 1 y 2 detallan dicha adaptación. La
medida F es la media armónica de ambas versiones adaptadas de Recall y Precision.
También se crearon dos nuevas medidas: la Granularidad y el Plagdet. La
Granularidad es una medida de usabilidad del sistema que indica el grado de
fragmentación de las detecciones válidas. Se obtiene de la relación entre el número de
detecciones válidas y el número de casos de plagios detectados (aunque sea
parcialmente), según se detalla en la fórmula 3. Su valor mínimo y óptimo es 1.
La medida Plagdet, acrónimo de Plagiarism Detection se creó especialmente para
evaluar la eficacia de los sistemas de detección de plagio al analizar los corpus PAN,
combinado los conceptos anteriores, según se indica en la fórmula 5.
Obsérvese el ejemplo [1] de documento plagiado de la figura 1:
Fig. 1: Documento representado como secuencia de caracteres, incluyendo las
secciones plagiadas S y las detecciones R devueltas por el algoritmo de detección de
plagio. La figura está dibujada a escala 1:n caracteres, siendo n >> 1.
5
Se considera que una detección es válida para sistemas de enfoque externo solo si tiene al
menos un carácter detectado tanto en el documento sospechoso como en el documento
fuente. En caso contrario toda la detección es considerada como falso positivo.
Se denota S como el conjunto de casos de plagio en el corpus, y R como el
conjunto de detecciones reportadas por un detector de plagio para los documentos
sospechosos. Para simplificar la notación, un caso de plagio s , se representa como un
conjunto de referencias a los caracteres de los documentos dplg y dsrc que forman los
pasajes splg y ssrc, del modo s = splg , dplg , ssrc , dsrc , s ∈ S. Del mismo modo,
una detección de plagio r ∈ R se representa como r. Basándonos en esta notación
[4, 5], la precisión y cobertura de R bajo S pueden medirse como sigue:
1
Precision (S , R) =
∣R∣
1
Recall (S , R) =
∣S∣
∑∣ ∪s∈ S ( s ╥ r ) ∣
r ∈R
(1)
∣r∣
∑∣ ∪r ∈ R ( s ╥ r )∣
s ∈S
(2)
∣s∣
{
donde s ╥ r = s∩r si r detecta a s
0 en otro caso
}
Obsérvese que ni la precisión ni la cobertura tienen en cuenta el hecho de que los
detectores de plagio a veces reportan solapamientos de múltiples detecciones de un
mismo caso de plagio. Para compensar el déficit del sistema ante este hecho
indeseado, también se cuantifica la granularidad del detector (fórmula 3), que penaliza
las múltiples detecciones sobre el mismo plagio.
Granularity ( S , R) =
1
∣S R∣
∑ ∣R s∣
(3)
s∈ S R
donde SR ⊆ S son los casos de plagio con detecciones en R, y RS ⊆ R son detecciones
de S. Así, SR = {s | s ∈ S ∧ ∃r ∈ R : r detecta s} y Rs = {r | r ∈ R ∧ r detecta a s}.
Finalmente, las tres medidas se combinan en un único indicador general, llamado
Plagdet, según las fórmulas 4 y 5, donde Recall(S,R) y Precision(S,R) son la cobertura
y la precisión del sistema (macropromediadas), F es la media armónica no ponderada
de ambas y Granularity(S,R) la granularidad del conjunto de detecciones válidas.
F=
2 Recall (S , R) Precision(S , R)
Recall ( S , R)+ Precision( S , R)
Plagdet =
F
log 2 (1+Granularidad ( S , R))
(4)
(5)
3
Motivación
La valoración de sistemas de enfoques combinados (intrínseco y externo), o la
valoración combinada de sistemas independientes para ambos enfoques, ha sido una
cuestión muy sensible y poco estable en el marco de desarrollo de las competiciones
PAN desde su inicio6. Parece no encontrarse el sistema adecuado.
Haciendo un breve repaso por la historia de la PAN podemos ver la evolución:
• La edición PAN-09 [1], ponderaba de diferente forma las propuestas externa e
intrínseca, por tener dos corpus separados para dichos enfoques, con diferentes
cantidades de documentos y casos de plagio a evaluar, lo que en las valoraciones
globales, favorecía a los sistemas externos (o compensaba en cierto modo por la
posibilidad del intrínseco de analizar a ambos córpora).
• La edición PAN-10 [6], unificó los corpus en uno solo, para fomentar la
integración de los sistemas, con una única medida de su prestación final. Sin
embargo, se consiguió mayoritariamente el efecto opuesto: el avanzado estado de
desarrollo de los sistemas externos, con alta precisión en comparación con los
intrínsecos, produce como resultado de su mezcla, una valoración final peor que si
se presenta solo la propuesta externa. Algunos equipos participantes, como el
ganador de la edición [7], aún disponiendo de un avanzado sistema intrínseco,
renunciaron a mezclar los resultados con el objetivo de mejorar su puntuación
final, sin presentar su propuesta intrínseca.
• La edición PAN-11 [8], volvió a realizarse con dos corpus separados, y se tomó por
primera vez como método de clasificación global de los equipos presentados, la
media aritmética (no poderada) de las prestaciones Plagdet obtenidas por las
propuestas externa e intrínseca de cada equipo, valorando en 0 (Plagdet parcial), la
ausencia de alguna de las mencionadas propuestas. Con ello se fomenta por igual el
desarrollo de ambos enfoques, y en especial, la presentación de ambos por todos
los equipos.
Queda claro que si se pretende destacar globalmente, todo participante
desarrollador de sistemas externos, verá necesaria la inclusión de algún algoritmo, por
malo que sea, que limite la ventaja de equipos con otras propuestas (y le aventaje
sobre quienes no lo hagan).
Además, un detector de enfoque intrínseco, puede realizar una detección parcial de
casos externos (la sección plagiada del documento sospechoso), pudiendo atacar los
6
Desde el punto de vista de los autores de este artículo.
casos de ambos tipos de plagio y puntuar en ambos córpora, si están separados, para
mejorar la prestación global del sistema/equipo.
Como consecuencia de lo expuesto, se pretendió crear una propuesta simple que
minimizara la posible ventaja intrínseca y/o un sistema de valoración más objetivo
para compensar dicha ventaja. Cualquier equipo de la competición podrá presentar
dicha propuesta en futuras ediciones PAN si el sistema de valoración no es adaptado
para evitar el desequilibrio, lo que le permitiría dar un pequeño “salto” (leap) en su
puntuación global.
4
Baseline LEAP (Labeling Everything As Plagiarized)
La propuesta de Baseline LEAP (Labelling Everything As Plagiarized) para sistemas
de detección de plagio intrínsecos, consiste en marcar todos los documentos como
plagiados de inicio a fin.
Puede parecer poco ambiciosa, pero está fundamentada en las características de la
detección de plagio intrínseca y de la composición de la medida Plagdet para este
enfoque:
• No es preciso identificar la fuente de plagio.
• La detección debe estar poco fragmentada (penalizaría mucho la puntuación final).
• Es deseable la máxima cobertura y precisión.
En un sistema externo, o intrínseco, indicar que no hay ningún plagio, produce un
Plagdet de 0.0 por convenio. En un sistema externo, con Ns documentos sospechosos
y Nf documentos fuente, indicar que todo está plagiado de todo (estrategia LEAP),
provoca en la práctica una puntuación muy próxima a 0, ya que habría que presentar
Ns*Nf detecciones de plagio, de las cuales, se tendrán una cobertura máxima (1.0),
cubriendo toda la colección, pero una precisión que dependería inversamente del
número de probables fuentes existentes y directamente del promedio de porcentaje
plagiado en cada documento sospechoso.
En la práctica, y para una colección con Nf documentos fuente, la precisión será
inferior, en el caso más favorable (todos los documentos sospechosos plagiados al
100% de sus fuentes completas) a 1/Nf .
Cuando hablamos de corpus como los de PAN, con miles de documentos fuente
(entre 7000 y 16000 documentos), supone una precisión máxima de 0.000143, por
cubrirse todos los plagios sin fraccionamiento, y una puntuación Plagdet de 0.000286,
por lo que tratándose del caso más favorable (aunque ilógico), se puede considerar
despreciable.
Para el corpus externo PAN-PC-11, de 11093 documentos fuente, con sus
características de ratio de plagio por documento detalladas en [8], se ha calculado que
el Plagdet de un algoritmo externo con estrategia LEAP sería tan solo de 0.00002982.
Sin embargo, para un sistema intrínseco, en el que no hay que determinar la fuente
de plagio, indicar que todo está plagiado de principio a fin, proporciona de cobertura
1.0 (máxima), granularidad 1.0 (óptima) y una precisión no despreciable, pues será
equivalente al promedio de la proporción de plagio de todos los documentos
sospechosos. Con todo ello, el Plagdet final obtenido será próximo al doble del
promedio de la ratio interna de plagio en el conjunto de documentos sospechosos.
La propuesta LEAP puede parecer a primera vista poco ambiciosa, pero como en
PAN hay normalmente un 50% de documentos sospechosos plagiados, y un
porcentaje promedio de plagio por documento que varía poco según la edición, pero
que llega hasta el 30%, el Baseline puede obtener normalmente prestaciones Plagdet
intrínsecas cercanas a 0.28 (y hasta de 1.0 en el ilógico caso más favorable de todo
totalmente plagiado en el corpus intrínseco).
5
Implementación del Baseline LEAP
La implementación del algoritmo, para el formato de PAN, computable por el script
perfmeasures.py7, es tremendamente sencilla, bastando con generar para cada fichero
sospechoso, otro con el contenido XML de análisis abajo detallado, sustituyendo las
variables SUSPISCIOUS_FILENAME y SUSPCIOUS_FILE_LENGTH por el nombre
y la longitud en bytes respectivamente del fichero sospechoso.
<document xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:noNamespaceSchemaLocation="http://www.uniweimar.de/medien/webis/research/corpora/pan-pc-09/document.x
sd" reference="SUSPICIOUS_FILENAME">
<feature name="detected-plagiarism" this_offset="0"
this_length="SUSPICIOUS_FILE_LENGTH"/>
</document>
7
Script público en Python, desarrollado por la universidad de Weimar, para evaluar las
prestaciones (sobre corpus PAN-PC) de sistemas de detección de plagio que etiqueten sus
resultados según el esquema XML:
http://www.uni-weimar.de/medien/webis/research/corpora/pan-pc-09/document.xsd
6
Experimentación
Implementando este sencillo algoritmo para comprobar la suposición sobre los corpus
PAN, se obtuvieron los resultados mostrados en la tabla 1.
Tabla 1. Resultados del Baseline LEAP para los distintos PAN-PC intrínsecos
Recall
PAN-PC-09
PAN-PC-10 8
Precision
Granularity
Plagdet
1.0
0.101549617
1.0
0.184375930
0.590508545
0.160430627
1.0
0.252312463 9
1.0
0.059265298
1.0
0.111898877
PAN-PC-11
Tabla 2. Prestaciones del Baseline LEAP frente a las de algoritmos competidores en PAN.
PAN-PC-09
Intrinsic Rank
1º
2º
LEAP
3º
4º
Plagdet
0.2462
0.1955
0.1844
0.1766
0.1219
---
---
0.0558
---
---
PAN-PC-10
Intrinsic Rank
Plagdet
1º
0.6948 10
LEAP
0.2523
2º
PAN-PC-11
8
9
10
Intrinsic Rank
1º
2º
LEAP
3º
4º
Plagdet
0.3255
0.1679
0.1119
0.0841
0.0694
En esta edición se empleó un único corpus, mezclado los casos intrínsecos y externos.
La extraña puntuación obtenida en PAN-PC-10, corresponde a la puntuación global del
sistema sobre un corpus mixto. En estas condiciones, la cobertura supone el 50% en los casos
plagio externo (solo la parte del documento sospechoso) y el 100% del intrínseco.
Incluye la efectividad obtenida por el sistema externo combinado por este equipo.
En la tabla 2, se presentan los valores obtenidos por LEAP (resaltados),
comparándolos con los obtenidos por los diferentes algoritmos intrínsecos
presentados en las distintas competiciones PAN.
Como puede observase, aunque los valores obtenidos por LEAP parezcan bajos, no
son nada despreciables, dado el estado del arte del enfoque intrínseco.
7
Nuevo sistema para evaluar propuestas intrínsecas y
combinadas
La valoración de un sistema de detección de plagio, debería estar en consonancia con
su progreso sobre la prestación Plagdet del caso base LEAP, que no intenta detectar.
Como se ha demostrado, el Plagdet de la estrategia LEAP, es despreciable en el
caso de enfoque externo, pero es considerable para sistemas de enfoque intrínseco.
Se propone una nueva medida para medir la efectividad de los sistemas de
detección de plagio intrínsecos derivada de la actual, pero obtenida como la
normalización de su progreso diferencial respecto al caso base.
Esta nueva medida de efectividad, que se propone llamar Plagdet Diferencial
Intrínseco ( dPlagdet ), se obtendrá de la expresión (3):
dPlagdet =
Plagdet − Plagdet LEAP
1 − Plagdet LEAP
(3)
Donde Plagdet es la efectividad obtenida por las detecciones del sistema intrínseco,
aplicando directamente las fórmulas (1-2) y algoritmos que han servido hasta ahora
para evaluarlos, y PlagdetLEAP, la efectividad que obtiene (por ese mismo método)
LEAP sobre el mismo corpus.
Para ello, los desarrolladores de los corpus podrían facilitar gentilmente el valor
del Plagdet Intrínseco directo del Baseline LEAP (PlagdetLEAP), o en otro caso, y por
tratarse de un algoritmo tremendamente fácil de implementar, podría obtenerlo
experimentalmente cualquier desarrollador a partir del corpus.
De este modo, deberían evitarse presentar propuestas que estén por debajo del
Baseline LEAP, que obtendrían Plagdet diferencial negativo, correspondientes a
metodologías conducentes a resultados peores que no hacer más que indicar “todo
está totalmente plagiado”.
Evaluación conjunta de propuestas dobles
Para la evaluación combinada, los autores consideran que debería asumirse por
defecto, que en la PAN, cualquier participante de sistemas externos podría sin
esfuerzo usar el Baseline LEAP y presentar sus resultados para mejorar sus
diferencias con el resto. Si no se hace así, se beneficiarán los pícaros en la
clasificación global.
Para normalizar esta irregularidad, la medida de prestación global de detección de
plagio, se obtendría de (4) la semisuma del Plagdet directo del sistema externo, y del
Plagdet Diferencial Intrínseco, tomándose el valor 0.0 como dPlagdetIntrínseco para
aquellos equipos que no presenten propuesta intrínseca alguna, entendiéndose que
presentan LEAP por defecto.
Plagdet Global =
Plagdet Externo + dPlagdet Intrínseco
2
(4)
Gracias a esta nueva medida, la media de las prestaciones externas e intrínsecas no
se verá fortalecida por la simple inclusión de un algoritmo intrínseco, sin importar su
eficacia, sino que producirá incremento tan solo cuando es mínimamente efectivo.
También se evita con ello la picaresca (justificada) de que se incluya el Baseline
cuando se carezca de otra propuesta intrínseca, pero que podría perjudicar en la
clasificación global a competidores que simplemente no la incluyan. La nueva medida
anula dicha inclusión, haciéndola inefectiva y equiparable a no presentar propuesta.
8
Conclusiones
Tras los estudios y experimentos realizados con el Baseline LEAP y la comparación
de sus resultados respecto a las propuestas presentadas en anteriores ediciones de
PAN, llegamos a las siguientes conclusiones:
• El Baseline LEAP (o variantes minimales) puede ser empleado en futuras ediciones
PAN por competidores de sistemas externos para minimizar la ventaja sobre otros
que presenten propuestas intrínsecas, o aventajar a quienes no lo hagan.
• La medida dPlagdet, que evalúa el progreso diferencial de una propuesta sobre la
cómoda opción (pero muy significativa) de no analizar nada, parece más justa y
realista, tanto para indicar el grado de bondad de los sistemas de enfoque
intrínseco, como para valorar la combinación de propuestas externas e intrínsecas.
• La medida dPlagdet es objetiva para la desestimación de propuestas con resultados
inferiores al mínimo esfuerzo, ofreciendo una visión adecuada del progreso
aportado por los algoritmos de enfoque intrínseco.
• La medida dPlagdet, haría inefectiva la picaresca de la inclusión del Baseline
LEAP o similares por competidores de sistemas externos, y elimina la ventaja que
tiene implícita de partida cualquier sistema intrínseco de no necesitar esfuerzo para
puntuar considerablemente.
9
Agradecimientos
A los participantes en las distintas ediciones PAN por sus trabajos, y en especial al
equipo organizador, por su iniciativa y recursos en continua mejora, pues han
supuesto una fundamental ayuda, motivación y desafío constantes para el desarrollo
de nuestros trabajos en este emergente campo.
10
Referencias
1. Martin Potthast, Benno Stein, Andreas Eiselt, Alberto Barrón-Cedeño, and Paolo Rosso.
Overview of the 1st International Competition on Plagiarism Detection. In Benno Stein,
Paolo Rosso, Efstathios Stamatatos, Moshe Koppel, and Eneko Agirre, editors, SEPLN 09
Workshop on Uncovering Plagiarism, Authorship, and Social Software Misuse (PAN 09),
pages 1-9, September 2009. CEUR-WS.org.
2. Meyer zu Eissen, Sven and Benno Stein. 2006. Intrinsic plagiarism detection. In Mounia
Lalmas, Andy MacFarlane, Stefan M. Rüger, Anastasios Tombros, Theodora Tsikrika, and
Alexei Yavlinsky, editors, Proceedings of the 28th European Conference on Information
Retrieval (ECIR 2006),London, volume 3936 of Lecture Notes in Computer Science,
pages 565–569. Springer.
3. Benno Stein, Nedim Lipka, and Peter Prettenhofer. Intrinsic Plagiarism Analysis.
Language Resources and Evaluation (LRE), 45 (1): 63-82, 2011.
4. Alberto Barrón-Cedeño, Martin Potthast, Paolo Rosso, Benno Stein, and Andreas Eiselt.
Corpus and Evaluation Measures for Automatic Plagiarism Detection. In Nicoletta
Calzolari, Khalid Choukri, Bente Maegaard, Joseph Mariani, Jan Odijk, Stelios Piperidis,
Mike Rosner and Daniel Tapias, editors, 7th Conference on International Language
Resources and Evaluation (LREC 10), May 2010. European Language Resources
Association (ELRA).
5. Martin Potthast, Benno Stein, Alberto Barrón-Cedeño, and Paolo Rosso. An Evaluation
Framework for Plagiarism Detection. In 23rd International Conference on Computational
Linguistics (COLING 10), August 2010. Association for Computational Linguistics
6. Martin Potthast, Alberto Barrón-Cedeño, Andreas Eiselt, Benno Stein, and Paolo Rosso.
Overview of the 2nd International Competition on Plagiarism Detection. In Martin
Braschler and Donna Harman, editors, Notebook Papers of CLEF 10 Labs and Workshops,
September 2010.
7. Jan Kasprzak and Michal Brandejs. Improving the Reliaility of the Plagiarism
DetectionSystem: Lab Report for PAN at CLEF 2010. In Braschler et al. [9].
8. Martin Potthast, Andreas Eiselt, Alberto Barrón-Cedeño, Benno Stein, and Paolo Rosso.
Overview of the 3rd International Competition on Plagiarism Detection. In Vivien Petras,
Pamela Forner, and Paul D. Clough, editors, Notebook Papers of CLEF 11 Labs and
Workshops, September 2011.
9. Braschler, Harman, and Pianta, editors. Notebook Papers of CLEF 2010 LABs and
Workshops, 22-23 September, Padua, Italy, 2010. ISBN 978-88-904810-0-0.