KI-Tool zur Daten- und Dateianalyse

September 8, 2014

Hallo,

die Sprachmodelle als ein Beispiel für KI sind seit einigen Jahren in aller Munde. Nun suche ich ein tool, mit dem man einen Haufen von Dateien analysieren kann. Ich habe dabei geerbte Informationen vor Auge und bleibe im Sinne des Forums im Bereich Finanzen/Wertpapiere.

Der Erbe bekommt einen Haufen Aktenordner mit Papierunterlagen, Computerdateien in einer unbekannten Ordnerstruktur, die teilweise Kontoauszüge oder Kauf-/Verkaufsbescheinigungen von Wertpapieren enthalten. Ein Teil der Dateien besteht aus Scans von Papierunterlagen, die damit doppelt vorhanden sind (als Scan und als Papierunterlage).

Der erste Schritt wäre das Scannen der Papierunterlagen, was man selbst machen kann oder einen Service damit beauftragt. Danach müsste man abgleichen, welche Dokumente doppelt vorhanden sind. Eine einfache Suche nach doppelten Dateien funktionieert leider nicht, da sich die Dateien von ein und dem selben Dokument, das mehrmals gescannt wurde und ggf. noch als originäre Datei aus einem Download vorliegt, unterscheiden. Das Tool müsste also den Inhalt der Dokumente abgleichen und Doppelgänger erkennen. Im letzten Schritt müsste dann eine Auswertung der Dokumente erfolgen. Das könnte ein prompt wie "Erstell mir eine Liste der noch vorhandenen Depot-Positionen mit ihren Einstandskursen und Kaufdaten" oder so sein.

Gibt es sowas? Gibt es sowas ohne Hochladen der dateien in die Cloud, als etwas, das nur auf dem heimischen Rechner läuft?

Grüße

Oktober 19, 2009

Im Prinzip kann man lokal arbeiten. Mit der entsprechenden Hardware, z. B. https://appleinsider.com/articles/25/03/18/heavily-upgraded-m3-ultra-mac-studio-is-great-for-ai-projects

April 18, 2009

...braucht man bloß noch eine Software oder ein KI-Modell, die/das wirklich denken kann...

September 8, 2014

Die eigentliche Datenanalyse sollte mit einem trainierten KI-Modell recht schnell erreicht sein. Verglichen mit dem Durchforsten des gesamten Internets sollte der Datensatz aus einem Erbe vernachlässigbar gering sein.

Texterkennung von gescannten Dokumenten ist heute schon Standard. Auswertung von Text ist eine der Kernanwendungen der Sprach-KI-Modelle. Es geht in meinen Augen quasi nur um die Möglichkeit, ein bestehendes Modell mit eigenen Daten zu füttern und diese Daten nicht öffentlich zu machen.

Januar 19, 2020

vor 15 Minuten von Bolanger:

Es geht in meinen Augen quasi nur um die Möglichkeit, ein bestehendes Modell mit eigenen Daten zu füttern und diese Daten nicht öffentlich zu machen.

Ja, das ginge. Llama ist für Europa nicht lizensiert, aber Qwen oder DeepSeek sollten geeignet sein (selbst auf einem halbwegs aktuellen Windows-Laptop). Ich wüsste aber aus dem Stegreif nicht, wie man einen solchen Dokumentvergleich effizient (also nicht in O(n^2)) ohne Suchindex bauen würde (oder ohne alle Dokumente im Prompt mitzuschicken, was je nach Anzahl/Größe Probleme machen könnte). Vielleicht kann ein LLM dabei helfen, Dokumentsignaturen zu erzeugen, die sich effizient durchsuchen lassen.

Mai 5, 2015

Dafür ist dann wohl schon ein gewisser Workflow mit Assistants aufzubauen,
mit n8n z.B. so ähnlich wie bei
https://n8n.io/workflows/2335-build-a-financial-documents-assistant-using-qdrant-and-mistralai/

Januar 19, 2020

vor 2 Minuten von jim.:

Dafür ist dann wohl schon ein gewisser Workflow mit Assistants aufzubauen,
mit n8n z.B. so ähnlich wie bei
https://n8n.io/workflows/2335-build-a-financial-documents-assistant-using-qdrant-and-mistralai/

Ja, Qdrant als Vectorstore wäre so ein "Suchindex".

Juli 22, 2020

Hallo Bolanger,

Dokumente von Brokern sind häufig Bilder mit dahinterliegenden Text. Wenn diese als Datei vorliegen, sollten schon maschinell lesbar sein. Dann hast du noch Bilddokumente die du Scannen und mit OCR SW bearbeiten kannst. (ich mache das mit Scannen per Dokumentenscanner (Brother ADS-3600W), ich bin auf Windows Plattform unterwegs, daher ist OCR bei mir ist Omnipage Pro, es gibt aber auch andere leistungsfähige OCR. Die können eigentlich alle Batchverarbeitung.)

Mir reicht es die in eine selber definierte Struktur einzusortieren, und ggf. mit Volltextsuche im Explorer zu fischen falls ich mal nicht sofort das passende Dokument finde.

Bei mir ist das Datum Teil des Dokumentennamens und sollte auf Scans und in verarbeitbaren Dateien identisch vorhanden sein. Damit könntest Du Doubletten manuell rausfischen.

Es gibt Dokumentenmanagement Systeme, die automatisch indizieren die nur lokal arbeiten können und auch eine Dateistruktur behalten, und bis zu einem gewissen Grad trainiert werden können. Ob das aber dann auch die Doubletten findet kann ich Dir aus eigener Erfahrung nicht sagen. Paperless NGX würde mir da einfallen weil es mir aufgefallen ist als ich mich damit beschäftigt hatte: Lokale Installation, Daten auch auf Ordnerstruktur erreichbar, trainierbar bzw lernt selber dazu. Vielleicht lohnt es sich dazu ein paar YT Videos mal anzusehen.

Gruß

EddisHerrchen

September 8, 2014

@EddisHerrchen man kann natürlich viel Energie in die händische Aufarbeitung solcher Daten stecken. Es geht ja gerade darum, sich diese Arbeit abnehmen zu lassen. Wenn ich mal durchaus kritisch mich selbst hinterfrage, wie ich bisher mit übergebenen Dateien in größerem Umfang umgegangen bin, dann habe ich mich damit ehrlicherweise nur wenig beschäftigt. Ich denke an geschäftsunterlagen von Kollegen, deren Tätigkeit man aus unterschiedlichen Gründen übernommen hat. Die habe ich irgendwohin gespeichert, um im Fall der Fälle nochmal gezielt nach einer bestuimmten Information zu suchen und ansonsten mit meiner eigenen Organisationsstruktur weitergemacht. Auch für solche Fälle im Geschäftsleben wäre es sehr hilfreich, wenn man sich per Prompteingabe einen Überblick verschaffen könnte ohne alle Dokumente einzeln durchzuarbeiten und ins eigene Organisationssystem zu überführen.

Juli 22, 2020

Ah, ok. Da hat mich Deine Ausgangsfragestellung nach Papier und Onlinedokumenten wohl aufs falsche Gleis geschickt. Aber generell ist es genau das was Du suchst: Ein lokales DMS das deine Daten schnell auswertbar macht. Ob der Aufwand ein KI Modell zu finden und lokal lauffähig zu machen im vergleich zu einem DMS da niedriger oder höher ausfällt, kann ich nicht beurteilen. Spannendes Thema.

April 18, 2009

vor einer Stunde von Bolanger:

Ich denke an geschäftsunterlagen von Kollegen, deren Tätigkeit man aus unterschiedlichen Gründen übernommen hat. Auch für solche Fälle im Geschäftsleben wäre es sehr hilfreich, wenn man sich per Prompteingabe einen Überblick verschaffen könnte ohne alle Dokumente einzeln durchzuarbeiten und ins eigene Organisationssystem zu überführen.

Ja, das kenne ich aus dem Business-Umfeld. In manchen Textverarbeitungs-Tools gibt es neuerdings eine "Automatische Zusammenfassung".

Also... ein Mitarbeiter bekommt eine Aufgabe, die er bearbeiten soll. Er arbeitet mehrere Wochen an dem Thema, macht sich richtig Mühe, findet tolle Ergebnisse und schreibt ein 70-seitiges Dokument.

Sein Chef hat keine Lust, das alles zu lesen - und lässt sich eine "Automatische Zusammenfassung" schreiben. Das dauert 5 Sekunden und ist ungefähr eine halbe Seite. Die Zusammenfassung kann er zwischen Mittagspause und dem wöchentlichen Führungsmeeting lesen - und dort berichten, was sein Mitarbeiter herausgefunden hat.

Wer solche Zusammenfassungen mal gelesen hat, weiß, was dabei herauskommt. Manchmal kommt es ungefähr hin, manchmal nicht.

Januar 19, 2020

vor 3 Minuten von stagflation:

Ja, das kenne ich aus dem Business-Umfeld. In Microsoft Tools gibt es den "Copilot".

Ach, daher kommt deine KI-Skepsis - der ist echt Schrott.

September 8, 2014

Bei diesen tools kann man meiner Erfahrung nach mit allem arbeiten, dass bei jeder Behauptung direkt den Link zur Quelle enthält. So kann man schnell nachschauen, ob die Zusammenfassung in dem Punkt stimmt.

Ansonsten sind meine Erfahrungen mit automatisiert erstellten Berichten zu Videokonferenzen durchaus positiv. Beiindruckend finde ich dabei schon, dass Smalltalk ausgeblendet wird und Informationen, die zum gleichen Thema zu unterschiedlichen Zeit mitgeteilt wurden, zusammengefasst werden.

Wir stehen erst am Anfang dieser Enzwicklung. Bei allem, was innerhalb der letzten 2 Jahre geschehen ist müsste es eine taugliche Funktion in wenigen Jahren geben.

Januar 19, 2020

Am 18.3.2025 um 20:11 von Bolanger:

Wir stehen erst am Anfang dieser Enzwicklung. Bei allem, was innerhalb der letzten 2 Jahre geschehen ist müsste es eine taugliche Funktion in wenigen Jahren geben.

Ja, die allgemeine Erwartung ist, dass AGI in den nächsten Jahren erreicht werden wird:

https://archive.ph/iQ4XH

Zitat

I believe that very soon — probably in 2026 or 2027, but possibly as soon as this year — one or more A.I. companies will claim they’ve created an artificial general intelligence, or A.G.I., which is usually defined as something like “a general-purpose A.I. system that can do almost all cognitive tasks a human can do.”

Dezember 25, 2018

vor 44 Minuten von hattifnatt:

die allgemeine Erwartung ist, dass AGI in den nächsten Jahren erreicht werden wird

Dass das „allgemeine Erwartung“ wäre, zweifle ich an. In jedem Fall hat es derartige Prognosen über die letzten 60 Jahre schon öfter gegeben.

September 8, 2014

naja, man darf bei der derzeitigen Situation in meinen Augen eines nicht vergessen. Das Thema AI bekommt gerade so viel Aufmerksamkeit, weil die Sprachmodelle als ein Teil des Themas AI für die Nutzer greifbar und verständlich sind. die eigentliche Entwicklunsgarbeit ist schon viel älter. AGI muss man von Sprachmodellen unterscheiden. Eigentlich brauche ich für meine Fragestellung ja auch nur ein Sprachmodell, "mehr" nicht.

Januar 31, 2017

TL;DW = Too long, didn't write

https://marketoonist.com/2023/03/ai-written-ai-read.html

Januar 19, 2020

vor 35 Minuten von chirlu:

Dass das „allgemeine Erwartung“ wäre, zweifle ich an. In jedem Fall hat es derartige Prognosen über die letzten 60 Jahre schon öfter gegeben.

Diese Bezugnahme auf die "letzten 60 Jahre" disqualifiziert dich leider als ernsthaften Diskutanten :-* Ich habe zumindest eine Quelle genannt ...

Dezember 25, 2018

vor 2 Minuten von hattifnatt:

Diese Bezugnahme auf die "letzten 60 Jahre" disqualifiziert dich leider als ernsthaften Diskutanten

This time, it’s different?

Januar 19, 2020

vor 3 Minuten von chirlu:

This time, it’s different?

Beschäftige dich gern mit der aktuellen Literatur, z.B.

https://arxiv.org/pdf/2311.02462

Anmelden

KI-Tool zur Daten- und Dateianalyse

Empfohlene Beiträge

Bolanger

Diesen Beitrag teilen

Link zum Beitrag

Ramstein

Diesen Beitrag teilen

Link zum Beitrag

stagflation

Diesen Beitrag teilen

Link zum Beitrag

Bolanger

Diesen Beitrag teilen

Link zum Beitrag

hattifnatt

Diesen Beitrag teilen

Link zum Beitrag

jim.

Diesen Beitrag teilen

Link zum Beitrag

hattifnatt

Diesen Beitrag teilen

Link zum Beitrag

EddisHerrchen

Diesen Beitrag teilen

Link zum Beitrag

Bolanger

Diesen Beitrag teilen

Link zum Beitrag

EddisHerrchen

Diesen Beitrag teilen

Link zum Beitrag

stagflation

Diesen Beitrag teilen

Link zum Beitrag

hattifnatt

Diesen Beitrag teilen

Link zum Beitrag

Bolanger

Diesen Beitrag teilen

Link zum Beitrag

hattifnatt

Diesen Beitrag teilen

Link zum Beitrag

chirlu

Diesen Beitrag teilen

Link zum Beitrag

Bolanger

Diesen Beitrag teilen

Link zum Beitrag

mmusterm

Diesen Beitrag teilen

Link zum Beitrag

hattifnatt

Diesen Beitrag teilen

Link zum Beitrag

chirlu

Diesen Beitrag teilen

Link zum Beitrag

hattifnatt

Diesen Beitrag teilen

Link zum Beitrag

Erstelle ein Benutzerkonto oder melde dich an, um zu kommentieren

Benutzerkonto erstellen

Anmelden

Umsehen