pipeline overhaul

This commit is contained in:
overcuriousity
2025-08-08 22:45:21 +02:00
parent d5a6fe7dec
commit 138a494730
3 changed files with 492 additions and 196 deletions

View File

@@ -1,212 +1,207 @@
// src/config/prompts.ts
// src/config/prompts.ts - Centralized German prompts for AI pipeline
export const AI_PROMPTS = {
toolSelection: (mode: string, userQuery: string, selectionMethod: string, maxSelectedItems: number) => {
const modeInstruction = mode === 'workflow'
? 'Der Benutzer möchte einen UMFASSENDEN WORKFLOW über mehrere Phasen. Wählen Sie 1525 Elemente, die den Zyklus Datensammlung → Auswertung → Analyse → Bericht abdecken.'
: 'Der Benutzer möchte SPEZIFISCHE LÖSUNGEN. Wählen Sie 410 Elemente, die das Problem direkt adressieren.';
? 'Workflow mit 15-25 Items über alle Phasen. PFLICHT: Mindestens 40% Methoden, Rest Tools/Konzepte.'
: 'Spezifische Lösung mit 4-10 Items. PFLICHT: Mindestens 30% Methoden wenn verfügbar.';
return `Sie sind DFIR-Experte mit Zugriff auf eine vollständige Datenbank aus Methoden (type: "method") und Tools (type: "software"/"os"). Ihre Aufgabe ist es, die relevantesten Elemente für die Anfrage auszuwählen.
return `Du bist ein DFIR-Experte. Wähle die BESTEN Items aus dem vorgefilterten Set.
AUSWAHLMETHODE: ${selectionMethod}
${selectionMethod === 'embeddings_candidates' ?
'Die angezeigten Kandidaten wurden bereits semantisch vorgefiltert. Wählen Sie daraus die BESTEN.' :
'Sie sehen die vollständige Datenbasis. Wählen Sie die relevantesten Elemente.'}
WICHTIG MISCHUNG ERZWINGEN:
- Der finale Vorschlag MUSS eine Mischung aus Methoden UND Tools enthalten (sofern verfügbar).
- Ziel: grob 4060 % Methoden und 4060 % Tools. Wenn eine Kategorie knapp ist, wählen Sie so ausgewogen wie möglich. Begründen Sie Abweichungen im reasoning.
- Bezeichnen Sie Elemente konsequent als "Methode" oder "Tool" je nach Typ.
'✓ Semantisch relevante Items bereits vorgefiltert\n✓ Wähle die BESTEN für die konkrete Aufgabe' :
'✓ Vollständige Datenbank verfügbar\n✓ Wähle die relevantesten Items'}
${modeInstruction}
BENUTZER-ANFRAGE: "${userQuery}"
ANFRAGE: "${userQuery}"
KRITISCHE AUSWAHLPRINZIPIEN:
1) KONTEXT > POPULARITÄT: Nicht automatisch zu populären Tools greifen. Wählen Sie strikt szenariobezogen.
2) METHODIK vs. SOFTWARE:
- Dringend/Triage → Methoden für schnelle Reaktion priorisieren.
- Zeitkritisch → Triage-Methoden vor Tiefenanalyse-Tools.
- Umfassende Analyse → dann spezialisierte Tools ergänzen.
3) SPEZIFITÄT:
- ICS/SCADA → spezialisierte ICS-Methoden/-Tools statt generischer Netzwerk-Tools.
- Mobile (Android/iOS) → mobile-spezifische Methoden/Tools.
- Speicheranalyse dringend → schnelle Memory-Methoden/Tools vor Vollanalyse.
4) LESEN SIE DIE VOLLBESCHREIBUNG UND METADATEN (Tags, Plattformen, Phasen, Lizenz, Access).
VERFÜGBARE ITEM-TYPEN:
- TOOLS (type: "software"/"method") → praktische Anwendungen und Vorgehensweisen
- KONZEPTE (type: "concept") → theoretisches Wissen und Methodiken
UI-KÜRZE:
- Denken Sie mit: Für das UI sind kurze, prägnante Beschreibungen nötig. Bevorzugen Sie Elemente, die sich knapp zusammenfassen lassen. Formulieren Sie Begründungen fokussiert und ohne Floskeln.
AUSWAHLSTRATEGIE:
1. **ERSTE PRIORITÄT: Relevanz zur Anfrage**
- Direkt anwendbar auf das Problem
- Löst die Kernherausforderung
Wählen Sie die relevantesten Elemente (max ${maxSelectedItems} gesamt).
2. **ZWEITE PRIORITÄT: Ausgewogene Mischung**
- Tools/Methoden für praktische Umsetzung → selectedTools
- Konzepte für methodisches Verständnis → selectedConcepts
- WICHTIG: Auch Konzepte auswählen, nicht nur Tools!
ANTWORTFORMAT (JSON, SCHEMA UNVERÄNDERT):
3. **QUALITÄT > QUANTITÄT**
- Lieber weniger perfekte Items als viele mittelmäßige
- Jedes Item muss begründbar sein
AUSWAHLREGELN:
- Wähle ${mode === 'workflow' ? '15-25' : '4-10'} Items total, max ${maxSelectedItems}
- BEIDE Arrays füllen: selectedTools UND selectedConcepts
- Mindestens 1-2 Konzepte auswählen für methodische Fundierung
- Tools: 40% Methoden (type="method"), Rest Software (type="software")
ANTWORT AUSSCHLIESSLICH IM JSON-FORMAT:
{
"selectedTools": ["Name 1", "Name 2", ...],
"selectedConcepts": ["Konzept 1", "Konzept 2", ...],
"reasoning": "Begründen Sie die Auswahl, die erzwungene Mischung Methode/Tool und warum bestimmte populäre Elemente nicht geeignet sind. Halten Sie die Sprache präzise und UI-tauglich."
"selectedTools": ["ToolName1", "MethodName1", ...],
"selectedConcepts": ["ConceptName1", "ConceptName2", ...],
"reasoning": "Kurze Begründung mit Erwähnung der Tool/Konzept-Balance"
}`;
},
scenarioAnalysis: (isWorkflow: boolean, userQuery: string) => {
const analysisType = isWorkflow ? 'Untersuchungsszenario' : 'technische Problemstellung';
const considerations = isWorkflow ?
`- Angriffsvektoren (MITRE ATT&CK) und Bedrohungsmodell
- Betroffene Systeme/Assets und Kritikalität
- Zeitdruck, Beweiserhalt, Chain of Custody
- Relevante Artefakte und Datenquellen` :
`- Konkrete forensische Hürden
- Verfügbare Datenquellen und Integrität
- Anforderungen für rechtssichere Auswertung`;
const analysisType = isWorkflow ? 'Szenario' : 'Problem';
const focus = isWorkflow ?
'Angriffsvektoren, betroffene Systeme, Zeitkritikalität' :
'Kernherausforderung, verfügbare Daten, methodische Anforderungen';
return `Analysieren Sie das ${analysisType} prägnant in einem kurzen Fließtext (max. 220 Wörter).
return `DFIR-Experte: Analysiere das ${analysisType}.
${isWorkflow ? 'SZENARIO' : 'PROBLEM'}: "${userQuery}"
Berücksichtigen:
${considerations}
Fokus: ${focus}
Stil: Deutsch, ohne Listen/Markdown; klare, knappe Formulierungen, aber nicht telegrafisch (vollständige Sätze).`;
Antwort: Fließtext ohne Listen, max 100 Wörter.`;
},
investigationApproach: (isWorkflow: boolean, userQuery: string) => {
const approachType = isWorkflow ? 'Untersuchungsansatz' : 'Lösungsansatz';
const considerations = isWorkflow ?
`- Triage-Prioritäten nach forensischer Dringlichkeit
- Phasenabfolge: Datensammlung → Auswertung → Analyse → Bericht
- Kontaminationsvermeidung/Isolierung
- Objektivität und Nachvollziehbarkeit` :
`- Methodenwahl nach wissenschaftlichen Kriterien
- Validierung/Verifizierung der Vorgehensweise
- Integration in bestehende DFIR-Workflows
- Reproduzierbarkeit und Transparenz`;
const focus = isWorkflow ?
'Triage-Prioritäten, Phasenabfolge, Kontaminationsvermeidung' :
'Methodenauswahl, Validierung, Integration';
return `Formulieren Sie einen knappen ${approachType} (max. 220 Wörter), der explizit eine Mischung aus Methoden und Tools vorsieht.
return `Entwickle einen ${approachType}.
${isWorkflow ? 'SZENARIO' : 'PROBLEM'}: "${userQuery}"
Berücksichtigen:
${considerations}
Fokus: ${focus}
Stil: Deutsch, ohne Listen/Markdown, UI-tauglich und fokussiert.`;
Antwort: Fließtext ohne Listen, max 100 Wörter.`;
},
criticalConsiderations: (isWorkflow: boolean, userQuery: string) => {
const considerationType = isWorkflow ? 'kritische forensische Überlegungen' : 'methodische Voraussetzungen';
const aspects = isWorkflow ?
`- Beweissicherung vs. Gründlichkeit (Zeitdruck)
- Chain of Custody und rechtliche Verwertbarkeit
- Transparenz, Reproduzierbarkeit, Dokumentationspflichten` :
`- Validierung/Nachvollziehbarkeit der Methode/Tools
- Risiken für False Positives/Negatives
- Qualifikationsanforderungen und Reporting-Standards`;
const focus = isWorkflow ?
'Beweissicherung vs. Gründlichkeit, Chain of Custody' :
'Tool-Validierung, False Positives/Negatives, Qualifikationen';
return `Identifizieren Sie ${considerationType} in einem kurzen Fließtext (max. 220 Wörter) und achten Sie auf UI-Kürze.
return `Identifiziere kritische Überlegungen.
${isWorkflow ? 'SZENARIO' : 'PROBLEM'}: "${userQuery}"
Aspekte:
${aspects}
Fokus: ${focus}
Stil: Deutsch, ohne Listen/Markdown.`;
Antwort: Fließtext ohne Listen, max 100 Wörter.`;
},
phaseToolSelection: (userQuery: string, phase: any, phaseTools: any[]) => {
// In der Liste bewusst kurze Ausschnitte und klare Typ-Bezeichnung (Methode/Tool).
const items = phaseTools.map((tool: any, index: number) => {
const typ = tool.type === 'method' ? 'Methode' : 'Tool';
const desc = (tool.description || '').replace(/\s+/g, ' ').trim().slice(0, 320);
return `${index + 1}. [${typ}] ${tool.name}: ${desc}\n - Plattformen: ${tool.platforms?.join(', ') || 'N/A'}\n - Skill Level: ${tool.skillLevel}\n - Tags: ${tool.tags?.join(', ') || 'N/A'}`;
}).join('\n\n');
return `Wählen Sie 23 Elemente für die Phase "${phase.name}" und bewerten Sie diese VERGLEICHEND. Erzwingen Sie eine Mischung aus mindestens einer Methode und einem Tool, sofern verfügbar.
const methods = phaseTools.filter(t => t.type === 'method');
const tools = phaseTools.filter(t => t.type === 'software');
if (phaseTools.length === 0) {
return `Keine Tools für Phase "${phase.name}" verfügbar. Antworte mit leerem Array: []`;
}
return `Du bist ein DFIR-Experte. Wähle die 2-3 BESTEN Items für Phase "${phase.name}".
SZENARIO: "${userQuery}"
PHASE: ${phase.name} ${phase.description || 'Forensische Untersuchungsphase'}
PHASE: ${phase.name} - ${phase.description || ''}
VERFÜGBARE ELEMENTE FÜR ${phase.name.toUpperCase()}:
${items}
VERFÜGBARE ITEMS (bereits von KI vorausgewählt):
${methods.length > 0 ? `
METHODEN (${methods.length}):
${methods.map((method: any) =>
`- ${method.name}
Typ: ${method.type}
Beschreibung: ${method.description.slice(0, 150)}...
Domains: ${method.domains?.join(', ') || 'N/A'}
Skill Level: ${method.skillLevel}`
).join('\n\n')}
` : 'Keine Methoden verfügbar'}
BEWERTUNGSKRITERIEN:
- Eignung für das konkrete Szenario und GENAU diese Phase
- Vergleich zu den Alternativen in der Liste
- Praktikabilität (Zeit, Setup, Reproduzierbarkeit)
${tools.length > 0 ? `
SOFTWARE TOOLS (${tools.length}):
${tools.map((tool: any) =>
`- ${tool.name}
Typ: ${tool.type}
Beschreibung: ${tool.description.slice(0, 150)}...
Plattformen: ${tool.platforms?.join(', ') || 'N/A'}
Skill Level: ${tool.skillLevel}`
).join('\n\n')}
` : 'Keine Software-Tools verfügbar'}
UI-KÜRZE:
- Beginnen Sie in "justification" mit einer 24-Satz Kurzfassung (≈300360 Zeichen), danach 23 kurze, präzise Sätze mit Details.
- Bezeichnen Sie Elemente als "Methode" oder "Tool".
AUSWAHLREGELN FÜR PHASE "${phase.name}":
1. Wähle die 2-3 BESTEN Items für diese spezifische Phase
2. Priorisiere Items, die DIREKT für "${phase.name}" relevant sind
3. Mindestens 1 Methode wenn verfügbar, Rest Software-Tools
4. Begründe WARUM jedes Item für diese Phase optimal ist
ANTWORT NUR ALS JSON (Schema UNVERÄNDERT):
WICHTIG: Verwende EXAKT die Namen wie oben aufgelistet (ohne Präfixe wie M1./T2.)!
ANTWORT AUSSCHLIESSLICH IM JSON-FORMAT OHNE JEGLICHEN TEXT AUSSERHALB:
[
{
"toolName": "Exakter Methoden/Tool-Name",
"taskRelevance": 0100,
"justification": "Kurzfassung zuerst (≈300360 Zeichen). Danach knappe, vergleichende Begründung, warum dieses Element in dieser Phase besser geeignet ist.",
"limitations": ["Konkrete Einschränkung 1", "Einschränkung 2"]
"toolName": "Exakter Name aus der Liste oben",
"taskRelevance": 85,
"justification": "Spezifische Begründung warum optimal für ${phase.name}",
"limitations": ["Mögliche Einschränkung für diese Phase"]
}
]
Wählen Sie nur die 23 BESTEN Elemente und achten Sie auf die Mischung Methode+Tool.`;
]`;
},
toolEvaluation: (userQuery: string, tool: any, rank: number, taskRelevance: number) => {
const typ = tool.type === 'method' ? 'Methode' : 'Tool';
return `Sie sind DFIR-Experte. Erklären Sie DETAILLIERT die Anwendung dieses bereits bewerteten Elements.
const itemType = tool.type === 'method' ? 'Methode' : 'Tool';
return `Erkläre die Anwendung dieser/dieses ${itemType}.
PROBLEM: "${userQuery}"
ELEMENT: ${typ} ${tool.name} (Aufgaben-Eignung ${taskRelevance}%)
BESCHREIBUNG: ${(tool.description || '').replace(/\s+/g, ' ').trim()}
${itemType.toUpperCase()}: ${tool.name} (${taskRelevance}% Eignung)
TYP: ${tool.type}
ANTWORT AUSSCHLIESSLICH ALS JSON (Schema UNVERÄNDERT):
Bereits als Rang ${rank} bewertet.
ANTWORT AUSSCHLIESSLICH IM JSON-FORMAT OHNE JEGLICHEN TEXT AUSSERHALB DER JSON-STRUKTUR:
{
"detailed_explanation": "Beginnen Sie mit einer prägnanten Kurzfassung (≈300360 Zeichen) für das UI: 'Kurz: …'. Danach eine verdichtete Hauptpassage (≈80140 Wörter) mit präziser, technisch korrekter Erläuterung, warum und wie diese ${typ.toLowerCase()} für dieses Problem eingesetzt wird.",
"implementation_approach": "Konkrete, reproduzierbare Schrittfolge. Kurze Schritte, kein Ausschweifen.",
"pros": ["Spezifischer Vorteil 1", "Vorteil 2"],
"limitations": ["Konkrete Einschränkung 1", "Einschränkung 2"],
"alternatives": "Knappe Alternativen, falls dieses Element nicht verfügbar ist (Methoden und Tools anführen)."
}
WICHTIG:
- Keine erneute Bewertung nur Erklärung/Anwendung.
- Behalten Sie die korrekte Bezeichnung (Methode/Tool) bei.
- UI-Kürze: Kurzfassung am Anfang der detailed_explanation.`;
"detailed_explanation": "Warum und wie einsetzen",
"implementation_approach": "Konkrete Schritte",
"pros": ["Vorteil 1", "Vorteil 2"],
"limitations": ["Einschränkung 1"],
"alternatives": "Alternative Ansätze"
}`;
},
backgroundKnowledgeSelection: (userQuery: string, mode: string, selectedToolNames: string[], availableConcepts: any[]) => {
const conceptsList = availableConcepts.slice(0, 15).map((concept: any) => `- ${concept.name}: ${(concept.description || '').replace(/\s+/g, ' ').trim().slice(0, 80)}`).join('\n');
return `Wählen Sie 24 forensische Konzepte, die für die Anwendung der empfohlenen Elemente (Methoden + Tools) wesentlich sind.
return `Wähle 2-4 relevante Konzepte.
${mode === 'workflow' ? 'SZENARIO' : 'PROBLEM'}: "${userQuery}"
EMPFOHLENE ELEMENTE: ${selectedToolNames.join(', ')}
AUSGEWÄHLTE TOOLS: ${selectedToolNames.join(', ')}
VERFÜGBARE KONZEPTE:
${conceptsList}
VERFÜGBARE KONZEPTE (${availableConcepts.length} KI-kuratiert):
${availableConcepts.map((c: any) =>
`- ${c.name}: ${c.description}...`
).join('\n')}
ANTWORT NUR ALS JSON (Schema UNVERÄNDERT):
ANTWORT AUSSCHLIESSLICH IM JSON-FORMAT OHNE JEGLICHEN TEXT AUSSERHALB DER JSON-STRUKTUR:
[
{
"conceptName": "Exakter Konzept-Name",
"relevance": "Knappe Begründung, warum dieses Konzept für das Verständnis der Methodik/Tools kritisch ist (UI-tauglich)."
"conceptName": "Name",
"relevance": "Warum kritisch für Methodik"
}
]`;
},
finalRecommendations: (isWorkflow: boolean, userQuery: string, selectedToolNames: string[]) => {
if (isWorkflow) {
return `Erstellen Sie einen knappen, methodisch korrekten WORKFLOW-Fließtext (max. 220 Wörter), der EXPLIZIT eine Mischung aus Methoden und Tools nutzt.
const focus = isWorkflow ?
'Workflow-Schritte, Best Practices, Objektivität' :
'Methodische Überlegungen, Validierung, Qualitätssicherung';
SZENARIO: "${userQuery}"
AUSGEWÄHLTE ELEMENTE: ${selectedToolNames.join(', ') || 'Keine Auswahl'}
return `Erstelle ${isWorkflow ? 'Workflow-Empfehlung' : 'methodische Überlegungen'}.
Vorgaben: klare Phasen (Datensammlung → Auswertung → Analyse → Bericht), Beweisführung/Chain of Custody, Reproduzierbarkeit. Sprache präzise und UI-tauglich. Keine Listen/Markdown.`;
}
${isWorkflow ? 'SZENARIO' : 'PROBLEM'}: "${userQuery}"
AUSGEWÄHLT: ${selectedToolNames.join(', ')}${selectedToolNames.length > 5 ? '...' : ''}
return `Formulieren Sie knappe, kritische ÜBERLEGUNGEN (max. 200 Wörter) zur korrekten Anwendung der empfohlenen Elemente (Methoden + Tools).
Fokus: ${focus}
PROBLEM: "${userQuery}"
EMPFOHLENE ELEMENTE: ${selectedToolNames.join(', ') || 'Keine Auswahl'}
Fokus: Validierung/Qualitätssicherung, Risiken (FP/FN), Dokumentation/Reporting. Stil deutsch, ohne Listen/Markdown, UI-tauglich.`;
Antwort: Fließtext ohne Listen, max ${isWorkflow ? '100' : '80'} Wörter.`;
}
} as const;
@@ -231,4 +226,4 @@ export function getPrompt(promptKey: keyof typeof AI_PROMPTS, ...args: any[]): s
console.error(`[PROMPTS] Error generating prompt ${promptKey}:`, error);
return 'Error: Failed to generate prompt';
}
}
}