Information für die Wissenschaft Nr. 13 | 6. März 2017

Skalierbare Verfahren der Text- und Strukturerkennung für die Volltextdigitalisierung historischer Drucke

DFG erbittet Anträge zur Entwicklung kreativer, innovativer, skalierbarer und optimierender Verfahren der Text- und Strukturerkennung im Rahmen des OCR-D-Funktionsmodells

Die vollständige Massenvolltextdigitalisierung aller historischen Drucke aus dem Zeitraum des 16. bis 19. Jahrhunderts mit Verfahren der Optical Character Recognition (OCR) stellt eine besondere technische und organisatorische Herausforderung dar. Daher fördert die Deutsche Forschungsgemeinschaft seit 2015 ein Koordinierungsprojekt zur Weiterentwicklung von OCR-Verfahren (kurz OCR-D), um in Kollaboration von Wissenschaft und Infrastruktureinrichtungen dieser Herausforderung zu begegnen. Auf der Basis der organisatorischen, technischen und inhaltlichen Vorbereitungen von OCR-D folgt nun eine Ausschreibung zur Entwicklung kreativer, innovativer, skalierbarer und optimierender Verfahren der Text- und Strukturerkennung für die Volltextdigitalisierung historischer Drucke.

Es können Mittel für Vorhaben beantragt werden, die Lösungen für eines oder mehrere der folgenden Module im von OCR-D entwickelten Funktionsmodell anstreben: 1) Bildvorverarbeitung, 2) Layouterkennung, 3) Textoptimierung, 4) Modelltraining, 5) Langzeitarchivierung und Persistenz oder 6) Qualitätssicherung. Voraussetzung zur Förderung ist die Bereitschaft zur abgestimmten Zusammenarbeit mit OCR-D, sodass die zu implementierenden Lösungen sich nahtlos in das von OCR-D entwickelte Funktionsmodell zur Texterfassung integrieren. Die Lösungen der Vorhaben sollen eine hochperformante, flexible, skalierbare und nachhaltige Komponente für die Massenvolltextdigitalisierung bilden.

Am Ende des Gesamtvorhabens soll ein konsolidiertes Verfahren zur OCR-Verarbeitung von Digitalisaten des gedruckten deutschen Kulturerbes des 16. bis 19. Jahrhunderts erarbeitet worden sein. Das Erreichen dieses Zieles ermöglicht dann – nach Implementierung in den Digitalisierungsworkflows der Bibliotheken und Durchführung der Volltextdigitalisierung – die Nutzung von digitalen Volltexten in vielen Wissenschaftsdisziplinen, insbesondere im Bereich der geisteswissenschaftlichen Forschung.

Bitte legen Sie Ihrem Antrag den vollständigen Ausschreibungstext zugrunde, in dem die Rahmenbedingungen für die Projekte detailliert ausgeführt sind.

Interessenteninnen und Interessenten werden gebeten, bis zum 26. April 2017 eine Absichtserklärung einzureichen. Förderanträge können bis zum 31. Mai 2017 über das elan-Portal der DFG eingereicht werden.

Handelt es sich bei dem Antrag um Ihren ersten Antrag bei der DFG, berücksichtigen Sie bitte, dass Sie sich vor der Antragstellung im elan-Portal registrieren müssen. Die Bestätigung der Registrierung erfolgt in der Regel bis zum darauffolgenden Arbeitstag.

Weiterführende Informationen

Den vollständigen Ausschreibungstext finden Sie unter:

Zusatzinformationen zu den einzelnen Modulen finden Sie unter:

Weitere Informationen zum OCR-D-Koordinierungsprojekt finden Sie unter:

Das elan-Portal ist zugänglich unter:

Ansprechpartner in der DFG für Förderbedingungen und Förderfragen:

Ansprechpartnerin für inhaltliche und organisatorische Fragen beim OCR-D-
Koordinierungsprojekt: