Implement duplicate page detection
This adds detection of duplicate pages to avoid adding duplicate pages to a multi-page article. It adds a simple unit test and regenerates the nytimes regression test with the new, and more correct, result. Previously, we were including page 2 again after page 5. Conflicts: src/readability_lxml/readability.py0.3.0.dev
parent
c931a80ba8
commit
eefb8e1125
@ -0,0 +1,48 @@
|
||||
<div id="article">
|
||||
<div id="page-1" class="article-page">
|
||||
<p>
|
||||
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Nulla et
|
||||
laoreet ligula. Nulla facilisi. Morbi condimentum molestie enim in
|
||||
fermentum. Phasellus sit amet vehicula turpis. Sed eu dolor tortor,
|
||||
et accumsan purus. Aliquam velit nisl, facilisis quis suscipit in,
|
||||
porttitor at lorem. Ut adipiscing suscipit augue, id interdum arcu
|
||||
ultricies et. Etiam risus sapien, suscipit et ultricies vel,
|
||||
suscipit posuere velit. Proin est orci, sollicitudin at luctus
|
||||
feugiat, consectetur a justo. Etiam nec sem vel massa consectetur
|
||||
vulputate non interdum est. Donec sem dui, ultricies a adipiscing
|
||||
eu, placerat sed sem.
|
||||
</p>
|
||||
<p>
|
||||
Nunc lacinia varius justo, at lacinia felis ultricies vel. Proin
|
||||
vestibulum vehicula eleifend. Ut vitae risus eros. Pellentesque
|
||||
habitant morbi tristique senectus et netus et malesuada fames ac
|
||||
turpis egestas. In hac habitasse platea dictumst. Vivamus magna
|
||||
libero, blandit vitae hendrerit porta, dapibus eget eros. Nunc
|
||||
turpis felis, facilisis eu vestibulum sed, porta a ipsum. Vivamus
|
||||
est velit, molestie sed molestie quis, tincidunt a diam. Quisque et
|
||||
neque a ante fermentum tempus in at nunc. Nunc sit amet egestas
|
||||
nisi.
|
||||
</p>
|
||||
</div>
|
||||
<div id="page-2" class="article-page">
|
||||
<p>
|
||||
Proin in lacus dolor, sit amet molestie quam. Morbi nisi turpis,
|
||||
pharetra at consequat tristique, convallis nec turpis. Vestibulum
|
||||
sit amet magna vitae sem bibendum tincidunt. Maecenas quis tortor
|
||||
eget velit mollis tempor vel a nisl. Vivamus posuere tristique
|
||||
ante, cursus rhoncus tortor malesuada eu. Praesent faucibus viverra
|
||||
orci ac porttitor. Maecenas dui purus, aliquam sed aliquam nec,
|
||||
dignissim vitae libero. Nunc at mauris et ante accumsan
|
||||
pellentesque. In placerat pretium suscipit. Phasellus tellus est,
|
||||
venenatis eu consectetur non, vehicula vel metus. Curabitur
|
||||
venenatis sem fringilla ante elementum eget faucibus nulla tempus.
|
||||
Aenean convallis sapien et dolor lobortis interdum. Phasellus odio
|
||||
risus, sagittis ut elementum ut, porttitor non libero. Integer
|
||||
fringilla magna quis augue dapibus malesuada. Nulla consectetur
|
||||
nisi mi. Suspendisse faucibus lobortis ornare. Nunc venenatis
|
||||
tortor in urna pulvinar pulvinar. Sed et mi nec justo hendrerit
|
||||
cursus ac nec mauris. Morbi et ante a lorem iaculis rutrum vitae eu
|
||||
massa.
|
||||
</p>
|
||||
</div>
|
||||
</div>
|
@ -0,0 +1,25 @@
|
||||
<div id="page-1" class="article-page">
|
||||
<p>
|
||||
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Nulla et
|
||||
laoreet ligula. Nulla facilisi. Morbi condimentum molestie enim in
|
||||
fermentum. Phasellus sit amet vehicula turpis. Sed eu dolor tortor,
|
||||
et accumsan purus. Aliquam velit nisl, facilisis quis suscipit in,
|
||||
porttitor at lorem. Ut adipiscing suscipit augue, id interdum arcu
|
||||
ultricies et. Etiam risus sapien, suscipit et ultricies vel,
|
||||
suscipit posuere velit. Proin est orci, sollicitudin at luctus
|
||||
feugiat, consectetur a justo. Etiam nec sem vel massa consectetur
|
||||
vulputate non interdum est. Donec sem dui, ultricies a adipiscing
|
||||
eu, placerat sed sem.
|
||||
</p>
|
||||
<p>
|
||||
Nunc lacinia varius justo, at lacinia felis ultricies vel. Proin
|
||||
vestibulum vehicula eleifend. Ut vitae risus eros. Pellentesque
|
||||
habitant morbi tristique senectus et netus et malesuada fames ac
|
||||
turpis egestas. In hac habitasse platea dictumst. Vivamus magna
|
||||
libero, blandit vitae hendrerit porta, dapibus eget eros. Nunc
|
||||
turpis felis, facilisis eu vestibulum sed, porta a ipsum. Vivamus
|
||||
est velit, molestie sed molestie quis, tincidunt a diam. Quisque et
|
||||
neque a ante fermentum tempus in at nunc. Nunc sit amet egestas
|
||||
nisi.
|
||||
</p>
|
||||
</div>
|
@ -0,0 +1,20 @@
|
||||
<div id="page-3" class="article-page">
|
||||
<p>
|
||||
Nunc non blandit velit. Maecenas suscipit sem sed velit tristique
|
||||
facilisis. Quisque condimentum, nisi vitae dictum euismod, diam risus
|
||||
vehicula nibh, in scelerisque lorem risus et risus. Aliquam erat
|
||||
volutpat. Pellentesque habitant morbi tristique senectus et netus et
|
||||
malesuada fames ac turpis egestas. Donec blandit venenatis feugiat. Ut
|
||||
quis turpis ac urna consectetur sagittis. Vestibulum aliquet eros et
|
||||
orci placerat vitae tempus tellus pretium. Quisque rutrum sapien quis
|
||||
nibh facilisis quis posuere ipsum elementum. In ac pretium justo. Sed
|
||||
egestas luctus mollis. Donec rutrum leo a turpis facilisis commodo. Nam
|
||||
quis quam eget mi malesuada scelerisque. Pellentesque semper
|
||||
condimentum sagittis. Nam lobortis, tortor ut placerat viverra, ante
|
||||
felis vehicula sem, blandit ultricies purus urna eget elit.
|
||||
Pellentesque habitant morbi tristique senectus et netus et malesuada
|
||||
fames ac turpis egestas. Sed vel nulla sollicitudin dolor adipiscing
|
||||
dapibus aliquam vitae leo. Phasellus at turpis tempus lectus
|
||||
pellentesque faucibus.
|
||||
</p>
|
||||
</div>
|
Loading…
Reference in New Issue