Translate : keyword_search page

This commit is contained in:
Seb2lyon 2021-06-06 09:38:27 +02:00
parent 8c13cc41c4
commit 0f433ce324

View File

@ -1,119 +1,119 @@
/*! \page keyword_search_page Keyword Search Module /*! \page keyword_search_page Keyword Search (Recherches par mots clés)
[TOC] [TOC]
\section keyword_module_overview What Does It Do \section keyword_module_overview Qu'est ce que ça fait
The Keyword Search module facilitates both the \ref ingest_page "ingest" portion of searching and also supports manual text searching after ingest has completed (see \ref ad_hoc_keyword_search_page). It extracts text from files being ingested, selected reports generated by other modules, and results generated by other modules. This extracted text is then added to a Solr index that can then be searched. Le module "Keyword Search" facilite à la fois la partie de recherche lors de l'\ref ingest_page "acquisition" et prend également en charge la recherche manuelle de texte une fois l'acquisition terminée (voir \ref ad_hoc_keyword_search_page). Il extrait le texte des fichiers en cours d'acquisition, des rapports sélectionnés générés et des résultats d'autres modules. Ce texte extrait est ensuite ajouté à un index Solr qui peut ensuite être consulté au cours de cette recherche.
Autopsy tries its best to extract the maximum amount of text from the files being indexed. First, the indexing will try to extract text from supported file formats, such as pure text file format, MS Office Documents, PDF files, Email, and many others. If the file is not supported by the standard text extractor, Autopsy will fall back to a string extraction algorithm. String extraction on unknown file formats or arbitrary binary files can often extract a sizeable amount of text from a file, often enough to provide additional clues to reviewers. String extraction will not extract text strings from encrypted files. Autopsy fait de son mieux pour extraire le maximum de texte des fichiers indexés. Tout d'abord, l'indexation essaiera d'extraire le texte des formats de fichier pris en charge, tels que le format de fichier texte brut, les documents MS Office, les fichiers PDF, les e-mails et bien d'autres. Si le fichier n'est pas pris en charge par l'extracteur de texte standard, Autopsy reviendra à un algorithme d'extraction de chaîne de caractères. L'extraction de chaînes de caractères sur des formats de fichiers inconnus ou sur des fichiers binaires arbitraires peut souvent extraire une quantité importante de texte d'un fichier, assez souvent pour fournir des indices supplémentaires aux analystes. L'extraction de chaînes de caractère n'extraira pas les chaînes de texte des fichiers chiffrés.
Autopsy ships with some built-in lists that define regular expressions and enable the user to search for Phone Numbers, IP addresses, URLs and E-mail addresses. However, enabling some of these very general lists can produce a very large number of hits, and many of them can be false-positives. Regular expressions can potentially take a long time to complete. Autopsy est livrée avec des listes intégrées qui définissent des expressions régulières et permettent à l'utilisateur de rechercher des numéros de téléphone ("Phone Numbers"), des adresses IP ("IP addresses"), des URL ("URLs") et des adresses e-mail ("E-mail addresses"). Cependant, l'activation de certaines de ces listes très générales peut produire un très grand nombre de résultats, et beaucoup d'entre eux peuvent être des faux positifs. Les expressions régulières peuvent prendre du temps à se terminer.
Once files are placed in the Solr index, they can be searched quickly for specific keywords, regular expressions, or keyword search lists that can contain a mixture of keywords and regular expressions. Search queries can be executed automatically during the ingest run or at the end of the ingest, depending on the current settings and the time it takes to ingest the image. Une fois les fichiers placés dans l'index Solr, ils peuvent être recherchés rapidement pour des mots-clés spécifiques, des expressions régulières ou des listes de recherche de mots-clés pouvant contenir un mélange de mots-clés et d'expressions régulières. Les requêtes de recherche peuvent être exécutées automatiquement pendant l'exécution de l'acquisition ou à la fin de l'acquisition, en fonction des paramètres actuels et du temps nécessaire à l'acquisition de l'image.
Refer to \ref ad_hoc_keyword_search_page for more details on specifying regular expressions and other types of searches. Référez vous à la page \ref ad_hoc_keyword_search_page pour plus de détails sur la spécification des expressions régulières et d'autres types de recherche.
\section keyword_search_configuration_dialog Keyword Search Configuration Dialog \section keyword_search_configuration_dialog Configuration de la recherche par mot-clé
The keyword search configuration dialog has three tabs, each with its own purpose: L'option de configuration de la recherche par mot-clé ("Keyword Search") comporte trois onglets, chacun ayant son propre objectif:
\li The \ref keywordListsTab is used to add, remove, and modify keyword search lists. \li L'\ref keywordLists est utilisé pour ajouter, supprimer et modifier des listes de recherche par mot-clé.
\li The \ref stringExtractionTab is used to enable language scripts and extraction type. \li L'\ref stringExtraction est utilisé pour activer les scripts de langage et le type d'extraction.
\li The \ref generalSettingsTab is used to configure the ingest timings and display information. \li L'\ref generalSettings est utilisé pour configurer les horaires d'acquisition et afficher les informations.
## Lists tab {#keywordListsTab} \subsection keywordLists Onglet "Lists"
The Lists tab is used to create/import and add content to keyword lists. To create a list, select the 'New List' button and choose a name for the new Keyword List. Once the list has been created, keywords can be added to it (see \ref ad_hoc_kw_types_section for more information on keyword types). Lists can be added to the keyword search ingest process; searches will happen at regular intervals as content is added to the index. L'onglet "Lists" est utilisé pour créer/importer et ajouter du contenu aux listes de mots clés. Pour créer une liste, sélectionnez le bouton "New List" et choisissez un nom pour la nouvelle liste de mots clés. Une fois la liste créée, des mots clés peuvent y être ajoutés (voir la section \ref ad_hoc_kw_types_section pour plus d'informations sur les types de mots-clés). Des listes peuvent être ajoutées au processus d'acquisition de la recherche par mot-clé; les recherches auront lieu à intervalles réguliers au fur et à mesure que le contenu est ajouté à l'index.
\image html keyword-search-configuration-dialog.PNG \image html keyword-search-configuration-dialog.PNG
The lists of keywords can be found on the left side of the panel. New lists can be created, existing lists can be renamed, copied, exported, or deleted, and lists can be imported. Autopsy supports importing Encase tab-delimited lists as well as lists created previously with Autopsy. For Encase lists, folder structure and hierarchy is ignored. There is currently no way to export lists for use with Encase, but lists can be exported to share between Autopsy users. Les listes de mots-clés se trouvent sur le côté gauche du panneau. De nouvelles listes peuvent être créées, les listes existantes peuvent être renommées, copiées, exportées ou supprimées et les listes peuvent être importées. Autopsy prend en charge l'importation de listes Encase délimitées par des tabulations ainsi que des listes créées précédemment avec Autopsy. Pour les listes Encase, la structure et la hiérarchie des dossiers sont ignorées. Il n'existe actuellement aucun moyen d'exporter des listes à utiliser avec Encase, mais les listes peuvent être exportées pour être partagées entre les utilisateurs d'Autopsy.
Once a keyword list is selected all keywords in that list will be displayed on the right side of the tab. The "New Keywords" button can be used to add one or more entries to the list, and the "Edit keyword" and "Delete keywords" buttons can alter the existing entries. Une fois qu'une liste de mots-clés est sélectionnée, tous les mots-clés de cette liste seront affichés sur le côté droit de l'onglet. Le bouton "New Keywords" peut être utilisé pour ajouter une ou plusieurs entrées à la liste, et les boutons "Edit keyword" et "Delete keywords" peuvent modifier les entrées existantes.
\image html keyword-search-configuration-new-keywords.PNG \image html keyword-search-configuration-new-keywords.PNG
New entries can be typed into the dialog or pasted from the clipboard. All entries added at once must be the same type of match (exact, substring, or regex), but the dialog can be used multiple times to add keywords to the keyword list. Refer to the \ref ad_hoc_kw_types_section section for an explanation of each keyword type. Les nouvelles entrées peuvent être saisies dans la boîte de dialogue ou collées à partir du presse-papiers. Toutes les entrées ajoutées en même temps doivent être du même type de correspondance ("Exact Match": correspondance exacte, "Substring Match" : correspondance avec une sous-chaîne de caractères, ou "Regular Expression" : expression régulière), mais la boîte de dialogue peut être utilisée plusieurs fois pour ajouter des mots-clés à la liste. Reportez-vous à la section \ref ad_hoc_kw_types_section pour une explication sur chaque type de mot-clé.
Under the Keyword list is the option to send ingest inbox messages for each hit. If this is enabled, each keyword hit for that list will be accessible through the yellow triangle next to the Keyword Lists button. This feature gives you a quick way to view your most important keyword search results. Sous la liste "Keywords", vous pouvez solliciter la réception d'un messages dans la boite de notification des Ingest Modules pour chaque découverte de correspondance. Si cette option est activée, la découverte de chaque mot-clé trouvé pour cette liste sera notifiée via le triangle jaune à côté du bouton "Keyword Lists". Cette fonctionnalité vous offre un moyen rapide d'afficher les résultats de recherche de mots clés les plus importants.
\image html keyword-search-inbox.PNG \image html keyword-search-inbox.PNG
## String Extraction tab {#stringExtractionTab} \subsection stringExtraction Onglet "String Extraction"
The string extraction setting defines how strings are extracted from files from which text cannot be extracted normally because their file formats are not supported. This is the case with arbitrary binary files (such as the page file) and chunks of unallocated space that represent deleted files. Le paramètre "String Extraction" définit comment les chaînes de caractères sont extraites des fichiers dont le texte ne peut pas être extrait normalement car les formats de ces fichier ne sont pas pris en charge. C'est le cas des fichiers binaires arbitraires (tels que les fichiers d'échanges) et des morceaux d'espace non alloué qui représentent des fichiers supprimés.
When we extract strings from binary files we need to interpret sequences of bytes as text differently, depending on the possible text encoding and script/language used. In many cases we don't know in advance what the specific encoding/language the text is encoded in. However, it helps if the investigator is looking for a specific language, because by selecting less languages the indexing performance will be improved and the number of false positives will be reduced. Lorsque nous extrayons des chaînes de caractères de fichiers binaires, nous devons interpréter les séquences d'octets comme du texte différemment en fonction du codage de texte possible et du script/langage utilisé. Dans de nombreux cas, nous ne savons pas à l'avance dans quel encodage/langue spécifique le texte est encodé. Cependant, cela peut être intéressant si l'enquêteur recherche une langue spécifique, car en sélectionnant moins de langues, les performances d'indexation seront améliorées et le nombre des faux positifs seront réduits.
\image html keyword-search-configuration-dialog-string-extraction.PNG \image html keyword-search-configuration-dialog-string-extraction.PNG
The default setting is to search for English strings only, encoded as either UTF8 or UTF16. This setting has the best performance (shortest ingest time). Le paramètre par défaut consiste à rechercher uniquement les chaînes anglaises, codées en UTF8 ou UTF16. Ce paramètre offre les meilleures performances (temps d'acquisition le plus court).
The user can also use the String Viewer first and try different script/language settings, and see which settings give satisfactory results for the type of text relevant to the investigation. Then the same setting that works for the investigation can be applied to the keyword search ingest. L'utilisateur peut également utiliser en premier le "String Viewer" et essayer différents paramètres de script/langue, et voir quels paramètres donnent des résultats satisfaisants pour le type de texte pertinent pour l'enquête. Ensuite, ce même paramètre qui fonctionne pour l'enquête peut être appliqué au module d'acquisition de recherche par mot-clé.
## General Settings tab {#generalSettingsTab} \subsection generalSettings Onglet "General"
\image html keyword-search-configuration-dialog-general.PNG \image html keyword-search-configuration-dialog-general.PNG
### NIST NSRL Support ### Prise en charge du NIST NSRL
The hash lookup ingest service can be configured to use the NIST NSRL hash set of known files. The keyword search advanced configuration dialog "General" tab contains an option to skip keyword indexing and search on files that have previously marked as "known" and uninteresting files. Selecting this option can greatly reduce size of the index and improve ingest performance. In most cases, user does not need to keyword search for "known" files. Le module d'acquisition "Hash Lookup" peut être configuré pour utiliser l'ensemble de hachage NIST NSRL de fichiers connus. L'onglet "General" de la boîte de dialogue de configuration avancée de la recherche par mot-clé contient une option permettant d'ignorer l'indexation par mot-clé et de rechercher des fichiers précédemment marqués comme "connus" ("Known") et sans intérêt. La sélection de cette option peut réduire considérablement la taille de l'index et améliorer les performances d'acquisition. Dans la plupart des cas, l'utilisateur n'a pas besoin de rechercher par mot-clé les fichiers "connus".
### Result update frequency during ingest ### Fréquence de mise à jour des résultats lors de l'acquisition
To control how frequently searches are executed during ingest, the user can adjust the timing setting available in the keyword search advanced configuration dialog "General" tab. Setting the number of minutes lower will result in more frequent index updates and searches being executed and the user will be able to see results more in real-time. However, more frequent updates can affect the overall performance, especially on lower-end systems, and can potentially lengthen the overall time needed for the ingest to complete. Pour contrôler la fréquence à laquelle les recherches sont exécutées pendant l'acquisition, l'utilisateur peut ajuster le paramètre de synchronisation disponible dans l'onglet "General" de la boîte de dialogue de configuration avancée de la recherche par mot-clé. La réduction du nombre de minutes entraînera des mises à jour d'index et des recherches plus fréquentes et l'utilisateur pourra voir les résultats davantage en temps réel. Cependant, des mises à jour plus fréquentes peuvent affecter les performances globales, en particulier sur les systèmes peu performants, et peuvent potentiellement allonger le temps total nécessaire à l'acquisition.
One can also choose to have no periodic searches. This will speed up the ingest. Users choosing this option can run their keyword searches once the entire keyword search index is complete. On peut également choisir de ne pas effectuer de recherches périodiques. Cela accélérera l'acquisition. Les utilisateurs qui choisissent cette option peuvent exécuter leurs recherches par mots-clés une fois que l'index de recherche par mots-clés est complet.
### Optical Character Recognition ### Reconnaissance optique de caractères (OCR)
There is also a setting to enable Optical Character Recognition (OCR). If enabled, text may be extracted from supported image types. Enabling this feature will make the keyword search module take longer to run, and the results are not perfect. The secondary checkbox can make OCR run faster by only processing large images and images extracted from documents. Il existe également un paramètre pour activer le Optical Character Recognition (OCR). Si cette option est activée, le texte peut être extrait des types d'images pris en charge. L'activation de cette fonctionnalité rendra le module de recherche par mot-clé plus long à exécuter et les résultats ne sont pas parfaits. La deuxième case à cocher peut accélérer l'exécution de l'OCR en ne traitant que les grandes images et les images extraites de documents.
The following shows a sample image containing text: Voici un exemple d'image contenant du texte:
\image html keyword-search-ocr-image.png \image html keyword-search-ocr-image.png
The "Indexed Text" tab shows the results when running the keyword search module with the OCR option enabled. If we were to use Keyword Search to look for the word "forensics", this file would be a match. L'onglet "Indexed Text" affiche les résultats lors de l'exécution du module de recherche par mot-clé avec l'option OCR activée. Si nous devions utiliser la recherche par mot-clé pour rechercher le mot "forensics", ce fichier serait une correspondance.
\image html keyword-search-ocr-indexed-text.png \image html keyword-search-ocr-indexed-text.png
\anchor keyword_search_ocr_config \anchor keyword_search_ocr_config
By default, OCR is only configured for English text. Its configuration depends on the presence of language files (called "traineddata" files) Par défaut, l'OCR n'est configuré que pour le texte anglais. Sa configuration dépend de la présence de fichiers de langue (appelés fichiers "traineddata")
that exist in a location that Autopsy can understand. To add support for more languages, you will need to download additional "traineddata" qui existent dans un endroit qu'Autopsy peut atteindre. Pour ajouter la prise en charge de plusieurs langues, vous devrez télécharger des "traineddata" supplémentaires
and move them to the right location. The following steps breakdown this process for you: et les déplacer au bon endroit. Les étapes suivantes décrivent ce processus:
<ol> <ol>
<li>Navigate to https://tesseract-ocr.github.io/tessdoc/Data-Files. <li>Aller sur https://tesseract-ocr.github.io/tessdoc/Data-Files.
<li>Under the section titled "Data Files for Version 4.00 (November 29, 2016)" you will find a table containing files that represent each language. These files have the extension ".traineddata". <li>Dans la section intitulée "Data Files for Version 4.00 (November 29, 2016)", vous trouverez un tableau contenant des fichiers représentant chaque langue. Ces fichiers ont l'extension ".traineddata".
<li>To download the desired language, click on the links in the far right-hand column of the table. You may download as many as you like. Note that you must only choose from this table. Language files under any other sections are not guaranteed to work in Autopsy. <li>Pour télécharger la langue souhaitée, cliquez sur les liens dans la colonne à l'extrême droite du tableau. Vous pouvez en télécharger autant que vous le souhaitez. Notez que vous ne devez choisir que dans ce tableau. Les fichiers de langue dans les autres sections ne sont pas garantis de fonctionner dans Autopsy.
<li>Once you've downloaded your language files, simply drag and drop them into the "AppData\Roaming\autopsy\ocr_language_packs" folder under your user folder. <li>Une fois que vous avez téléchargé vos fichiers de langue, faites-les simplement glisser et déposez-les dans le dossier "AppData\Roaming\autopsy\ocr_language_packs" se trouvant dans votre dossier utilisateur.
<li>Start up Autopsy and you will be all set. If Autopsy was running, this will require a restart to take effect. <li>Démarrez Autopsy et vous serez prêt. Si Autopsy était en cours d'exécution, cela nécessitera un redémarrage pour prendre effet.
</ol> </ol>
The language files will now be supported when OCR is enabled in the Keyword Search Settings. Les fichiers de langue seront désormais pris en charge lorsque l'OCR est activé dans les paramètres de "Keyword Search".
<!-----------------------------------------> <!----------------------------------------->
<br> <br>
Using the Module Utilisation du module
====== ======
Search queries can be executed manually by the user at any time, as long as there are some files already indexed and ready to be searched. Searching before indexing is complete will naturally only search indexes that are already compiled. Les requêtes de recherche peuvent être exécutées manuellement par l'utilisateur à tout moment, à condition que certains fichiers soient déjà indexés et prêts à être recherchés. La recherche avant que l'indexation ne soit terminée ne prendra naturellement en compte que les index déjà compilés.
See \ref ingest_page "Ingest" for more information on ingest in general. Voir la page \ref ingest_page "Modules d'acquisition" pour plus d'informations sur l'acquisition en général.
Once there are files in the index, \ref ad_hoc_keyword_search_page will be available for use to manually search at any time. Une fois qu'il y a des fichiers dans l'index, la \ref ad_hoc_keyword_search_page sera disponible pour une recherche manuelle à tout moment.
<!-----------------------------------> <!----------------------------------->
Ingest Settings Paramètres d'acquisition
------ ------
The Ingest Settings for the Keyword Search module allow the user to enable or disable the specific built-in search expressions, Phone Numbers, IP Addresses, Email Addresses, and URLs. Using the Advanced button (covered below), one can add custom keyword groups. Les paramètres d'acquisition du module "Keyword Search" permettent à l'utilisateur d'activer ou de désactiver les expressions de recherche intégrées spécifiques : Phone Numbers, IP Addresses, Email Addresses, and URLs. En utilisant le bouton "Global Settings" (voir ci-dessous), on peut ajouter des groupes de mots clés personnalisés.
\image html keyword-search-ingest-settings.PNG \image html keyword-search-ingest-settings.PNG
Seeing Results Voir les résultats
------ ------
The Keyword Search module will save the search results regardless whether the search is performed by the ingest process, or manually by the user. The saved results are available in the Directory Tree in the left hand side panel. Le module "Keyword Search" enregistrera les résultats de la recherche, que celle-ci ait été effectuée par le processus d'acquisition ou manuellement par l'utilisateur. Les résultats enregistrés sont disponibles dans l'arborescence des répertoires dans le panneau de gauche.
The keyword results will appear in the tree under "Keyword Hits". Each keyword search term will display the number of matches, and can be expanded to show the matches. From here, clicking on one of the matches will show a list of files on the right side of the screen. Select a file and go to the Indexed Text tab to see exactly where the matches occurred in the file. Les résultats des mots clés apparaîtront dans l'arborescence sous "Keyword Hits". Chaque terme de recherche par mot-clé affichera le nombre de correspondances et peut être développé pour afficher ces correspondances. À partir de là, en cliquant sur l'une des correspondances, une liste de fichiers apparaîtra sur le côté droit de l'écran. Sélectionnez un fichier et accédez à l'onglet "Indexed Text" pour voir exactement où les correspondances apparaissent dans le fichier.
\image html keyword_results.PNG \image html keyword_results.PNG