Merge pull request #463 from behrends/llm_in_context_et_al

llm in-context recall, mixtral 8x22b, llama3, rag-faithfulness (German translation)
4 weeks ago · 77d161620f
parent e83876b0e9 c25f5173a0
commit 77d161620f
8 changed files with 157 additions and 2 deletions
--- a/pages/introduction/settings.de.mdx
+++ b/pages/introduction/settings.de.mdx
@ -1,5 +1,15 @@
 # LLM Einstellungen

+import {Bleed} from 'nextra-theme-docs'
+
+<Bleed>
+  <iframe width="100%"
+    height="415px"
+    src="https://www.youtube.com/embed/CB0H7esOl68?si=OECAnvgnvJHy0qZ2" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture"
+    allowFullScreen
+    />
+</Bleed>
+
 Beim Entwerfen und Testen von Prompts interagieren Sie normalerweise über eine API mit dem LLM. Sie können einige Parameter konfigurieren, um unterschiedliche Ergebnisse für Ihre Prompts zu erhalten. Das Anpassen dieser Einstellungen ist wichtig, um die Zuverlässigkeit und Erwünschtheit der Antworten zu verbessern, und es bedarf des Experimentierens, um die richtigen Einstellungen für Ihre Anwendungsfälle herauszufinden. Unten finden Sie die gängigen Einstellungen, auf die Sie bei der Verwendung verschiedener LLM-Anbieter stoßen werden:

 **Temperatur** - Kurz gesagt, je niedriger die `temperature`, desto deterministischer sind die Ergebnisse in dem Sinne, dass immer das wahrscheinlichste nächste Token gewählt wird. Eine Erhöhung der Temperatur kann zu mehr Zufälligkeit führen und damit vielfältigere oder kreativere Ausgaben fördern. Sie erhöhen im Grunde das Gewicht der anderen möglichen Tokens. Im Hinblick auf die Anwendung möchten Sie vielleicht einen niedrigeren Temperaturwert für Aufgaben wie faktenbasierte QA verwenden, um präzisere und knappere Antworten zu fördern. Für die Generierung von Gedichten oder andere kreative Aufgaben könnte es vorteilhaft sein, den Temperaturwert zu erhöhen.
--- a/pages/models/_meta.de.json
+++ b/pages/models/_meta.de.json
@ -10,9 +10,11 @@
  "gpt-4": "GPT-4",
  "grok-1": "Grok-1",
  "llama": "LLaMA",
+  "llama-3": "Llama 3",
  "mistral-7b": "Mistral 7B",
  "mistral-large": "Mistral Large",
  "mixtral": "Mixtral",
+  "mixtral-8x22b": "Mixtral 8x22B",
  "olmo": "OLMo",
  "phi-2": "Phi-2",
  "sora": "Sora",
--- a/pages/models/llama-3.de.mdx
+++ b/pages/models/llama-3.de.mdx
@ -0,0 +1,49 @@
+# Llama 3
+
+import {Bleed} from 'nextra-theme-docs'
+
+Meta hat kürzlich ihre neue Familie großer Sprachmodelle (LLMs), genannt Llama 3, [vorgestellt](https://llama.meta.com/llama3/). Diese Veröffentlichung umfasst vorab trainierte und anweisungsoptimierte Modelle mit 8 Milliarden und 70 Milliarden Parametern.
+
+## Architekturdetails zu Llama 3
+
+Hier eine Zusammenfassung der technischen Details von Llama 3:
+
+- Es verwendet einen standardmäßigen Decoder-only-Transformer.
+- Der Wortschatz umfasst 128K Token.
+- Es wird auf Sequenzen von 8K Token trainiert.
+- Es wendet gruppierte Abfrageaufmerksamkeit (GQA) an.
+- Es ist auf über 15T Token vorab trainiert.
+- Es beinhaltet eine Nachtrainierung, die eine Kombination aus SFT, Ablehnungs-Stichprobenentnahme, PPO und DPO einschließt.
+
+## Leistung
+
+Auffällig ist, dass Llama 3 8B (anweisungsoptimiert) [Gemma 7B](https://www.promptingguide.ai/models/gemma) und [Mistral 7B Instruct](https://www.promptingguide.ai/models/mistral-7b) übertrifft. Llama 3 70 übertrifft deutlich [Gemini Pro 1.5](https://www.promptingguide.ai/models/gemini-pro) und [Claude 3 Sonnet](https://www.promptingguide.ai/models/claude-3), bleibt jedoch beim MATH-Benchmark etwas hinter Gemini Pro 1.5 zurück.
+
+!["Llama 3 Leistung"](../../img/llama3/llama-instruct-performance.png)
+*Quelle: [Meta AI](https://ai.meta.com/blog/meta-llama-3/)*
+
+Die vorab trainierten Modelle übertreffen ebenfalls andere Modelle bei mehreren Benchmarks wie AGIEval (Englisch), MMLU und Big-Bench Hard.
+
+!["Llama 3 Leistung"](../../img/llama3/llama3-pretrained-results.png)
+*Quelle: [Meta AI](https://ai.meta.com/blog/meta-llama-3/)*
+
+## Llama 3 400B
+
+Meta berichtete auch, dass sie ein Modell mit 400 Milliarden Parametern veröffentlichen werden, das derzeit noch trainiert wird und bald verfügbar sein soll! Es gibt auch Bemühungen um multimodale Unterstützung, mehrsprachige Fähigkeiten und längere Kontextfenster. Der aktuelle Checkpoint für Llama 3 400B (Stand 15. April 2024) liefert die folgenden Ergebnisse bei gängigen Benchmarks wie MMLU und Big-Bench Hard:
+
+!["Llama 3 400B"](../../img/llama3/llama-400b.png)
+*Quelle: [Meta AI](https://ai.meta.com/blog/meta-llama-3/)*
+
+Die Lizenzinformationen für die Llama 3 Modelle können auf der [Modellkarte](https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md) gefunden werden.
+
+## Ausführliche Bewertung von Llama 3
+
+Hier folgt eine längere Bewertung von Llama 3:
+
+<Bleed>
+  <iframe width="100%"
+    height="415px"
+    src="https://www.youtube.com/embed/h2aEmciRd6U?si=m7-xXu5IWpB-6mE0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture"
+    allowFullScreen
+    />
+</Bleed>
--- a/pages/models/mixtral-8x22b.de.mdx
+++ b/pages/models/mixtral-8x22b.de.mdx
@ -0,0 +1,28 @@
+# Mixtral 8x22B
+
+Mixtral 8x22B ist ein neues offenes großes Sprachmodell (LLM), das von Mistral AI veröffentlicht wurde. Mixtral 8x22B wird als sparsames Mischmodell aus Experten charakterisiert, mit 39 Milliarden aktiven Parametern aus insgesamt 141 Milliarden Parametern.
+
+## Fähigkeiten
+
+Mixtral 8x22B wurde entwickelt, um ein kosteneffizientes Modell zu sein, mit Fähigkeiten, die mehrsprachiges Verständnis, mathematisches Denken, Codegenerierung, native Funktionsaufrufunterstützung und eingeschränkte Ausgabeunterstützung umfassen. Das Modell unterstützt eine Kontextfenstergröße von 64000 (64K) Token, was eine leistungsstarke Informationsabrufung bei großen Dokumenten ermöglicht.
+
+Mistral AI behauptet, dass Mixtral 8x22B eines der besten Leistungs-Kosten-Verhältnisse unter den Community-Modellen bietet und aufgrund seiner sparsamen Aktivierungen deutlich schnell ist.
+
+!["Mixtral 8x22B Leistung"](../../img/mixtral/mixtral-8-cost.png)
+*Quelle: [Mistral AI Blog](https://mistral.ai/news/mixtral-8x22b/)*
+
+## Ergebnisse
+
+Gemäß den [offiziell berichteten Ergebnissen](https://mistral.ai/news/mixtral-8x22b/) übertrifft Mixtral 8x22B (mit 39 Milliarden aktiven Parametern) andere Spitzenmodelle wie Command R+ und Llama 2 70B in mehreren Denk- und Wissensbenchmarks wie MMLU, HellaS, TriQA, NaturalQA unter anderen.
+
+!["Mixtral 8x22B Denk- und Wissensleistung"](../../img/mixtral/mixtral-8-reasoning.png)
+*Quelle: [Mistral AI Blog](https://mistral.ai/news/mixtral-8x22b/)*
+
+Mixtral 8x22B übertrifft alle offenen Modelle bei Programmier- und Mathematikaufgaben, wenn es anhand von Benchmarks wie GSM8K, HumanEval und Math bewertet wird. Es wird berichtet, dass Mixtral 8x22B Instruct eine Punktzahl von 90% auf GSM8K (maj@8) erreicht.
+
+!["Mixtral 8x22B Denk- und Wissensleistung"](../../img/mixtral/mixtral-8-maths.png)
+*Quelle: [Mistral AI Blog](https://mistral.ai/news/mixtral-8x22b/)*
+
+Weitere Informationen zu Mixtral 8x22B und dessen Nutzung finden Sie hier: https://docs.mistral.ai/getting-started/open_weight_models/#operation/listModels
+
+Das Modell wird unter einer Apache 2.0-Lizenz veröffentlicht.
--- a/pages/research/_meta.de.json
+++ b/pages/research/_meta.de.json
@ -2,6 +2,8 @@
    "llm-agents": "LLM Agenten",
    "rag": "RAG für LLMs",
    "llm-reasoning": "LLM Reasoning",
+    "rag-faithfulness": "RAG Zuverlässigkeit",
+    "llm-recall": "LLM In-Context Recall",
    "thoughtsculpt": "ThoughtSculpt",
    "infini-attention": "Infini-Attention",
    "trustworthiness-in-llms": "Vertrauenswürdigkeit in LLMs",
--- a/pages/research/llm-recall.de.mdx
+++ b/pages/research/llm-recall.de.mdx
@ -0,0 +1,26 @@
+# LLM In-Context Recall hängt vom Prompt ab
+
+import {Bleed} from 'nextra-theme-docs'
+
+<Bleed>
+  <iframe width="100%"
+    height="415px"
+    src="https://www.youtube.com/embed/2cNO76lIZ4s?si=tbbdo-vnr56YQ077" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture"
+    allowFullScreen
+    />
+</Bleed>
+
+Dieses neue [Paper von Machlab und Battle (2024)](https://arxiv.org/abs/2404.08865) analysiert die In-Context Recall-Leistung verschiedener LLMs anhand mehrerer Nadel-im-Heuhaufen-Tests.
+
+Es zeigt, dass verschiedene LLMs Fakten auf unterschiedlichen Längen und in verschiedener Tiefe erinnern. Es stellt fest, dass die Recall-Leistung eines Modells erheblich durch kleine Änderungen im Prompt beeinflusst wird.
+
+!["Needle In the HayStack Performance"](../../img/research/haystack-performance.png)
+*Quelle: [Machlab und Battle (2024)](https://arxiv.org/abs/2404.08865)*
+
+Darüber hinaus kann das Zusammenspiel zwischen Prompt-Inhalt und Trainingsdaten die Antwortqualität verschlechtern.
+
+Die Recall-Fähigkeit eines Modells kann durch Vergrößerung, Verbesserung des Attention-Mechanismus, das Ausprobieren verschiedener Trainingsstrategien und das Anwenden von Fine-Tuning verbessert werden.
+
+Wichtiger praktischer Tipp aus dem Paper: „Die fortlaufende Bewertung wird die Auswahl von LLMs für individuelle Anwendungsfälle weiter informieren, ihre Wirkung und Effizienz in realen Anwendungen maximieren, da die Technologie weiterhin fortschreitet.“
+
+Die wichtigsten Erkenntnisse aus diesem Paper sind die Bedeutung einer sorgfältigen Gestaltung des Prompts, die Einrichtung eines kontinuierlichen Bewertungsprotokolls und das Testen verschiedener Modellverbesserungsstrategien, um Recall und Nutzen zu verbessern.
--- a/pages/research/rag-faithfulness.de.mdx
+++ b/pages/research/rag-faithfulness.de.mdx
@ -0,0 +1,26 @@
+# Wie zuverlässig sind RAG-Modelle?
+
+import {Bleed} from 'nextra-theme-docs'
+
+<Bleed>
+  <iframe width="100%"
+    height="415px"
+    src="https://www.youtube.com/embed/eEU1dWVE8QQ?si=b-qgCU8nibBCSX8H" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture"
+    allowFullScreen
+    />
+</Bleed>
+
+Dieses neue Paper von [Wu et al. (2024)](https://arxiv.org/abs/2404.10198) zielt darauf ab, das Kräftemessen zwischen den RAG-Modellen und der internen Priorisierung von LLMs zu quantifizieren.
+
+Es konzentriert sich dabei auf GPT-4 und andere LLMs bei der Beantwortung von Fragen zur Analyse.
+
+Es wurde festgestellt, dass das Bereitstellen korrekter abgerufener Informationen die meisten Fehler des Modells korrigiert (94% Genauigkeit).
+
+!["RAG Treue"](../../img/research/rag-faith.png)
+*Quelle: [Wu et al. (2024)](https://arxiv.org/abs/2404.10198)*
+
+Wenn die Dokumente mehr falsche Werte enthalten und das interne Priorisieren des LLM schwach ist, neigt das LLM eher dazu, falsche Informationen wiederzugeben. Es wurde jedoch festgestellt, dass die LLMs widerstandsfähiger sind, wenn sie eine stärkere Vorprägung haben.
+
+Das Paper berichtet auch, dass „je mehr die modifizierte Information von der Vorprägung des Modells abweicht, desto unwahrscheinlicher ist es, dass das Modell sie bevorzugt.“
+
+Viele Entwickler und Unternehmen setzen RAG-Systeme in der Produktion ein. Diese Arbeit hebt die Bedeutung der Risikobewertung bei der Verwendung von LLMs hervor, die verschiedene Arten von Kontextinformationen enthalten können, die unterstützende, widersprüchliche oder völlig inkorrekte Informationen enthalten können.
--- a/pages/techniques/zeroshot.de.mdx
+++ b/pages/techniques/zeroshot.de.mdx
@ -1,7 +1,19 @@
 # Zero-Shot Prompting
-Große LLMs (Language-Modelle) wie beispielsweise GPT-3 sind heute darauf abgestimmt, Anweisungen zu befolgen, und wurden mit großen Datenmengen trainiert. Daher sind sie in der Lage, einige Aufgaben "Zero-Shot" auszuführen.

-Wir haben einige Zero-Shot-Beispiele im vorherigen Abschnitt ausprobiert. Hier ist eines der Beispiele, die wir verwendet haben:
+import {Bleed} from 'nextra-theme-docs'
+
+<Bleed>
+  <iframe width="100%"
+    height="415px"
+    src="https://www.youtube.com/embed/ZTaHqdkxUMs?si=EDLjgAxuFxFcrSM3" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture"
+    allowFullScreen
+    />
+</Bleed>
+
+Große LLMs (Language-Modelle) wie beispielsweise GPT-3.5 Turbo, GPT-4 und Claude 3 sind heute darauf abgestimmt, Anweisungen zu befolgen, und wurden mit großen Datenmengen trainiert. Groß angelegtes Training ermöglicht es diesen Modellen, einige Aufgaben auf
+ "Zero-Shot"-Weise auszuführen. Zero-Shot-Prompting bedeutet, dass der Prompt, der verwendet wird, um mit dem Modell zu interagieren, keine Beispiele oder Demonstrationen enthält. Der Zero-Shot-Prompt instruiert das Modell direkt, eine Aufgabe ohne zusätzliche Beispiele auszuführen, um es zu lenken.
+
+Wir haben einige Zero-Shot-Beispiele im vorherigen Abschnitt ausprobiert. Hier ist eines der Beispiele, die wir verwendet haben (Text-Klassifizierung):

 *Prompt:*
 ```