Text summarizer based on `sumy`. Uses `ftfy` to keep sanity in unicode

as it appears on www, and `dominate` to generate html without fuss.
7 years ago · 4b6b7f9ffb
parent 2ed6489594
commit 4b6b7f9ffb
2 changed files with 69 additions and 0 deletions
--- a/examples/summarize.py
+++ b/examples/summarize.py
@ -0,0 +1,66 @@
+# coding=utf-8
+from __future__ import absolute_import
+from __future__ import division, print_function, unicode_literals
+
+import dominate
+from ftfy import fix_text
+from sumy.parsers.html import HtmlParser
+from sumy.nlp.tokenizers import Tokenizer
+from sumy.parsers.plaintext import PlaintextParser
+from sumy.summarizers.lsa import LsaSummarizer as Summarizer
+from sumy.nlp.stemmers import Stemmer
+from sumy.utils import get_stop_words
+from dominate.tags import *
+
+from qutescript import userscript
+
+LANGUAGE = "english"
+SENTENCES_COUNT = 10
+
+
+def generate_html(sentences, title_text):
+    doc = dominate.document(title='Summary')
+
+    with doc.head:
+        style("""\
+            body {
+                background-color: #F9F8F1;
+                color: #2C232A;
+                font-family: sans-serif;
+                font-size: 2.6em;
+                margin: 3em 1em;
+            }
+            
+        """)
+
+    with doc:
+        div(id='header').add(h1(title_text))
+        with div():
+            attr(cls='body')
+            for sentence in sentences:
+                p(sentence)
+
+    return doc
+
+
+@userscript
+def summarize_text(request):
+    if request.html:
+        parser = HtmlParser.from_file(file_path=request.html,
+                                      url=request.url,
+                                      tokenizer=Tokenizer(LANGUAGE))
+    else:
+        parser = PlaintextParser.from_file(file_path=request.html,
+                                           tokenizer=Tokenizer(LANGUAGE))
+
+    stemmer = Stemmer(LANGUAGE)
+
+    summarizer = Summarizer(stemmer)
+    summarizer.stop_words = get_stop_words(LANGUAGE)
+    sentences = [fix_text(str(s)) for s in summarizer(parser.document, SENTENCES_COUNT)]
+    html = generate_html(sentences, fix_text(request.title)).render()
+    request.send_html(html)
+
+
+if __name__ == "__main__":
+    summarize_text()
--- a/examples/summarize_requirements.txt
+++ b/examples/summarize_requirements.txt
@ -0,0 +1,3 @@
+dominate
+ftfy
+sumy