Das Forschungsgebiet „maschinelle Lernen“ (engl. „machine learning“) beschäftigt sich mit der computergestützten Modellierung und Realisierung von Lernphänomenen (vgl. Görz, Rollinger und Schneeberger, 2000, S.3).
Lernen ist in der Informationswissenschaft nicht ein Speichern von Zuordnungen von Reaktionen zu Reizmustern, sondern eine Informationsverarbeitung, die im weitesten Sinne Regeln verwendet.
Grundsätzlich unterscheidet man zwischen deduktiven, abduktiven und induktiven Prozessen des Lernens (vgl. Ferber, 2003, S. 106-108). Ein deduktiver Prozess bezeichnet das Folgern von Aussagen aus Vorraussetzungen aufgrund von Regeln. Vorraussetzung ist das Vorhandensein von Regeln und die Fähigkeit mit Regeln umgehen zu können. Ein abduktiver Prozess setzt Regeln voraus und schließt rückwärts von der Folgerung auf eine mögliche Ursache. Dies geschieht auf Grundlage von beobachteten Beispielen bzw. Ereignissen und bekannten Regeln. Induktives Schließen setzt eine gegebene Beispielmenge voraus, leitet daraus Regeln ab und überprüft diese im Allgemeinen an anderen Beispielen (vgl. Ferber, 2003, S. 10?).
„Auch wenn in der KDD der interaktive und iterative Prozess, bei dem Mensch und Lernverfahren gemeinsam verständliches und interessantes Wissen entdecken, sehr stark betont wird, so heißt das nicht, dass diese Sicht im Maschinellen Lernen nicht ebenso verbreitet war; KDD hat hier jedoch zu einer deutlichen Explizierung beigetragen“ (Görz, Rollinger und Schneeberger, S. 7).
Bei der Wissensgewinnung aus Korpora bzw. KDD handelt es sich um eine Form des induktiven Lernens (vgl. Ferber, 2003, S. 108). Dabei unterscheidet man wiederum zwischen überwachtem (Lernen aus Beispielen) und nichtüberwachtem Lernen (vgl. Ferber, 2003, S. 114).
Im Folgenden wird das „Kategorisieren“ als überwachter Lernprozess und das „Clustern“ als nichtüberwachter Lernprozess zur Klassifikation von Text beschrieben (vgl. Ferber, 2003, S. 114-115).
Beim Kategorisieren werden die Dokumente vordefinierten Kategorien bzw. Klassen zugeordnet. Dazu sind Beispiele erforderlich, die manuell den einzelnen Klassen zugeordnet werden. Aus dieser Beispielmenge wird ein Teil (sog. Training set) dazu verwendet Regelmäßigkeiten zu extrahieren mit dem Ziel, daraus Regeln zu erstellen, um neue Dokumente korrekt der entsprechenden Kategorie zuzuordnen. Um ein Verfahren zu evaluieren wird ein anderer Teil der Beispielmenge mit den gewonnenen Regeln kategorisiert und überprüft, ob die Dokumente richtig zugeordnet worden sind. Nachteil beim Kategorisieren ist, dass zur Evaluierung eine (große) Trainings- und Testmenge erstellt werden muss (vgl. Ferber, S. 114).
Beim Clustern muss der Algorithmus eine Einteilung in Kategorien selbst finden. Dies hat den Vorteil, dass keine kategorisierten oder bewerteten Trainingsdaten vorliegen müssen (vgl. Ferber, S. 153). Kategorisieren hat den Vorteil, dass die bekannten Werte der vorherzusagenden Attribute der Beispiele der Trainingsmenge bei der Konstruktion des Algorithmus verwendet werden können und dieser dadurch im Allgemeinen wesentlich effektiver wird (vgl. Ferber, 2003, S. 114).