Software allgemein Software zur Suche nach doppelt gescannten Bildern

Stocki

Mitglied
Registriert
30.08.04
Beiträge
1.265
Ort
Ein gutes Stück nördlich von Passau
Trophäen
...den Überblick verloren, was solls :-)
Hallo Leute,

heut hat sich die Frage ergeben, ob es ein Programm gibt, mit dem man fast identische Bilder auffinden kann.

Hintergrund:
Derzeit laufen in vielen Ahnenforscher-Organisationen Digitalisierungen von Sterbebildern. Diese sind oft wertvolle Quellen für die Forschung, weil sie Daten aus dem aktuellen Zeitraum bieten, die sonst aus datenschutzrechtlichen Gründen nicht zugänglich sind.

Mit Fortschreiten der Projekte, jeder darf seine Sammlung zum Scannen einreichen, ergibt sich natürlich das Problem der Dubletten. Manche Forscher haben mehrere 10.000 solcher Bilder zusammen getragen und eine manuelle Dublettensuche ist dabei sehr aufwändig, auch wenn die Dateinamen die wichtigsten Daten, Name, Vorname, Lebensdaten, Ort enthalten.

Hier wäre es möglicherweise sinnvoll, mit einem Programm die neuen Scans mit dem bestehenden Bildbestand abzugleichen. Da die Bilder in unterschiedlicher Auflösung und unterschiedlicher Komprimierung erstellt werden, teilweise auch unterschiedlichen Kontrast und Farbstich haben und ebenso teilweise nicht wirklich gerade gerichtet sind ist ein Pixel zu Pixel Vergleich wie bei kopierten Dateien nicht machbar.

Hier wäre es nötig, gleiche Bildinhalte zu finden und das möglichst genau. Am sinnvollsten wäre natürlich der bildmäßige Vergleich der Textstellen, weil dies ja pro Person absolut eindeutig ist. Schmückende Grafik-Elemente oder Fotos der Person sind da weniger sinnvoll, weil erstere von der Stange kommen und sehr oft verwendet werden und zweitere, die Fotos der Personen, nicht immer in guter Qualität dargestellt werden und zu vielen Fehl-Meldungen führen können.

Die Software müsste Motive also sehr schmalbandig vergleichen, dabei aber bei unterschiedlichen Auflösungen, Farbtönen etc sehr flexibel sein.

Kennt jemand Programme, mit denen sowas sinnvol zu machen ist? Freeware oder günstige Software wäre natürlich optimal, damit ohne großem finanziellen Aufwand dezentral z.B. bei den monatlichen Forschertreffen gearbeitet werden kann.

Viele Foto-Tools bieten Suche nach ähnlichen Bildern - aber was da als ähnlich oder gleich abgeliefert wird ist den Strom nicht wert, den der PC dazu braucht...

Dass so eine Suche sehr aufwändig ist, ist klar. Aber es spricht auch nichts dagegen, einen PC einmal mehrere Tage laufen zu lassen und sich mühsames manuelles Abgleichen zu ersparen. Die Übernahme der Personen-Daten in die Dateinamen kann wegen unterschiedlichster Darstellungen auf den Bildern und den bekannten OCR-Problemen bei buchstabengetreuer Erfassung weiterhin nur manuell erfolgen. Aber zumindest die Dubletten-Sucherei würde entfallen...

Stocki
 
AW: Software zur Suche nach doppelt gescannten Bildern

Hallo Stocki,

Du hast nur eine Chance mit Software, die eine gute biometrische Gesichtserkennung hat. Ansätze soll dafür die Software von Google haben.

Schönen Gruß
Werner
 
AW: Software zur Suche nach doppelt gescannten Bildern

Ich weiß nicht, wie gut Visipics Gesichter auseinanderhalten kann, bei normalen Fotos funktioniert es astrein. Man kann die Genauigkeit einstellen, mit der das Programm die Bilder der hinzugefügten Verzeichnisse vergleicht.
 
AW: Software zur Suche nach doppelt gescannten Bildern

Werner und Michael,

die Software soll eben keine Gesichter erkennen, weil auf Sterbebildern nicht immer Fotos drauf sind oder oft genug in schlechter Qualität. Es müsste der gesamte Scan verglichen werden und da vor allem die echt schwarz-weissen Bereiche die ja die Schrift enthalten. Und genau diese Schriftzüge müssten vor allem gut verglichen werden.

Es geht definitiv nicht darum, WER auf den Scans abgebildet ist, das steht ja in Klartext daneben. Es müssen Scans, die verschiedene Leute einreichen und daher auch verschiedene Auflösung etc haben verglichen werden, ob sie schon im Datenbestand vorhanden sind oder nicht.

Mit Fortschreiten der Projekte kommen aus der selben Gegend natürlich mehr und mehr Dubletten, weil die Leute ja oft auf den selben Beerdigungen waren und damit auch die selben Sterbebilder mitbringen.

N.b: Pro verstorbener Person gibt es in der Regel ein einziges Layout des Sterbebildes, aber eben in großer Auflage von der Druckerei. Daher sind auch auf den Scans der selben Person die absolut identischen Informationen drauf. Nur scannt halt jeder ein bissl anders, so dass die Scans eben absolut nicht Pixel-gleich sind sondern nur Informations-identisch sind.

Also müsste so eine Software zwar mit großer technischer variationsbreite zurecht kommen (einer scannt mit 150 dpi, der andere mit 1200, einer SW, der andere in Farbe, einer legt exakt ein der andere schief etc etc.) aber die dargestellte Information ist ja pro Sterbebild absolut identisch, weil es ja vom selben Druck kommt. Der inhaltliche Vergleich sollte dann extrem schmalbandig sein, weil ja auf Dubletten immer exakt der selbe Informationsgehalt drauf ist.

Anderer Ansatz:
1000 Leute scannen eine Woche lang jeden Geldschein ein, den sie erwischen und dann soll in einen Datenbestand nur jeweils ein Scan eines Geldscheines abgelegt werden, also z.b. der 20-Euro Schein nur 1x. Jeder reicht nun seine Scans ein, die ja mit verschiedenen Geräten und Einstellungen erstellt sind. Die Software soll nun alle doppelt vorhandenen Scans ausweisen, damit sie nicht mehr in den Datenbestand kommen. Gut, das hinkt ein bisschen, ist aber die selbe Sache: Absolut gleiche Vorlagen (ok, beim Geldschein gibts die Seriennummer, klar) aber technisch sehr unterschiedlich erfasst...

Da ist es auch egal, das abgebildete Motiv zu erkennen und zu sagen, es ist eine steinerne Brücke und ein gotisches Kirchenfenster drauf, um beim 20er zu bleiben. Es muss immer nur das Gesamtmotiv zuverlässig als solches erkannt werden...

Oooops, ist das wirklich so schwierig zu erklären? Scheint mir so... :-)))

Aber ich werd die VisiPics Software mal testen, brauch nur eine CD voll Scans. Hab das gestern bei der Diskussion leider versäumt, da wurden ca. 30.000 Bilder von 8 Sammlern aus der selben Region mit einem schnellen Scanner automatisch erfasst. Da sind garantiert viele Scans Dubletten von den selben Sterbebildern. Die Sammler selber haben meist im Laufe der Zeit die Papier-Originale schon sortiert und ausgemistet, aber gestern war ein Schuhkarton dabei, der von Anderen zum Scannen ausgeliehen wurde, da lag alles kreuz und quer drin und niemand hatte Lust, sich stundenlang hinzusetzen und zu ordnen...

Das sollte eben irgendwann ein PC machen...

Ich werd mir die Scans noch organisieren und dann mal testen.

Es darf aber gern weiter Software empfohlen werden, kein Problem. Je mehr Ansätze, desto eher findet sich der beste Kandidat dafür...

Danke erst mal, Stocki
 
Zurück
Oben