Information für die Wissenschaft Nr. 25 | 28. Mai 2014

Koordinierte Förderinitiative zur Weiterentwicklung von Verfahren für die Optical-Character-Recognition (OCR)

Mithilfe von OCR-Verfahren können aus Image-Digitalisaten automatisch maschinenlesbare Volltexte generiert werden. Die Nutzung von digitalen Volltexten ist in vielen Wissenschaftsdisziplinen und insbesondere im Bereich der geisteswissenschaftlichen Forschung heute unverzichtbar. Die Deutsche Forschungsgemeinschaft (DFG) fördert beispielsweise mit den im deutschen Sprachraum erschienenen Drucken des 16., 17., und 18. Jahrhunderts (VD 16, VD 17, VD 18) die Erstellung von Digitalisaten historisch bedeutender Textbestände. Die Förderinitiative zur Verbesserung von OCR zielt nun darauf ab, standardisierbare Prozesse zu etablieren und die Erstellung von Referenzkorpora zu unterstützen, um die Volltexterstellung auf Basis dieser Image-Digitalisate zu optimieren.

Die gegenwärtigen infrastrukturellen Herausforderungen bei der automatischen Texterkennung liegen weniger im Bereich der technischen Verbesserung einzelner OCR-Engines als vielmehr im Mangel an einschlägigem Trainingsmaterial für diese Engines (Referenzkorpora und lexikalische Ressourcen), in der Uneinheitlichkeit der Workflows zur Volltextgenerierung, in fehlender Interoperabilität von Prozessen und Formaten sowie in ungenügender Nachvollziehbarkeit der Genauigkeitsraten von OCR-Ergebnissen. Referenzkorpora ebenso wie Werkzeuge und Prozesse müssen frei zugänglich, nachnutzbar und transparent gestaltet sein, um langfristige Verbesserungen im Sinne der wissenschaftlichen Nutzbarkeit von Volltexten zu ermöglichen.

Die zweistufig angelegte Ausschreibung zielt darauf, Verfahren der Volltextgenerierung zu verbessern und, wo nötig, zu vereinheitlichen. Dabei soll in einer ersten Phase eine Koordinierungsstruktur geschaffen werden. Im Antrag für das Koordinierungsprojekt sollen die thematischen Module und Aufgabenbereiche eines koordinierten Vorgehens beschrieben werden. Auf dieser Basis können dann im Rahmen einer offenen Ausschreibung Projektanträge für die Umsetzung der einzelnen Module (zweite Phase) eingereicht werden. Der Antrag für das Koordinierungsprojekt soll darüber hinaus ein Konzept für die Interaktion der Module beinhalten.

Die DFG ruft nun Einrichtungen mit Erfahrung auf diesem Gebiet dazu auf, Anträge für das Koordinierungsprojekt einzureichen.

Der Antrag auf Koordinierung muss folgende Aspekte umfassen:

  • Konzeption der einzelnen Themen- und Aufgabenbereiche (Module)
  • Darlegung der Zielvorstellungen für die einzelnen Themen- und Aufgabenbereiche (insbesondere ob einheitliche Lösungen oder konkurrierende Ansätze zur Lösung eines Problems verfolgt werden sollen)
  • Spezifikation der einzelnen Module hinsichtlich der sinnvollen Einbindung Dritter (i.d.R. kommerzieller Anbieter)
  • Mechanismen zur Abstimmung der Module und Projekte untereinander
  • Zusammensetzung des Koordinationsgremiums und gegebenenfalls des Beirats unter dem Einbezug von wissenschaftlicher Expertise
  • Aufgabenverteilung innerhalb des Koordinationskonsortiums
  • Zeitplan für die Abfolge der Module

Bei der Konzeption der einzelnen Themen- und Aufgabenbereiche sollte berücksichtigt werden, dass die Image-Digitalisate der VDs sowie Drucke des 19. Jahrhunderts als zentrale Materialien gelten. Folgende Felder und Problemstellungen sollten adressiert werden, wobei auf relevanten Erfahrungen und Ergebnissen aus dem nationalen und internationalen Kontext aufzubauen ist:

  • Auf- und Ausbau von genre-, epochen-, sprach- und gegebenenfalls drucktypenspezifischen Korpora und lexikalischen Ressourcen
  • Weiterentwicklung von Open-Source-OCR-Engines
  • Verbesserung von Nachkorrekturanwendungen
  • Etablierung von praxistauglichen Workflows zum Crowdsourcing, das heißt zur Einbindung von (wissenschaftlichen) Nutzern insbesondere in die Nachkorrektur, beziehungsweise Anreicherung und Veredelung von Volltexten
  • Standardisierung von Workflows, gegebenenfalls anhand spezieller Use-Cases; Adressierung von Lücken im Workflow und Erarbeitung von nachnutzbaren Prozessen
  • Weiterentwicklung von Verfahren zur Text/Bild- und Strukturerkennung
  • Ermöglichung der Interoperabilität von Datenformaten bezüglich des Imports, Exports und der Speicherung
  • Verfahren zur persistenten Identifizierung von Volltexten und zu deren Langzeitarchivierung
  • Methoden der einheitlichen und nachvollziehbaren Versionierung
  • Herstellung von Transparenz über die Berechnung von Genauigkeitenquoten beziehungsweise Fehlerquoten; gegebenenfalls Vorschläge zur Anpassung der DFG-Praxisregeln in dieser Hinsicht
  • Weiterentwicklung oder Anpassung von Visualisierungswerkzeugen wie dem DFG-Viewer

Aufgaben des Koordinierungskonsortiums während der Ausschreibungsphase für die Module (zweite Phase) und der Laufzeit der geförderten Projekte bestehen in:

  • Steuerung der Initiative als Ganzer
  • Beratung der Antragstellerinnen und Antragsteller der einzelnen Modul-Projekte
  • Durchführung von Treffen und Workshops zur Abstimmung innerhalb der Initiative
  • Vertretung der Initiative nach außen, sowie gegenüber den DFG-Gremien
  • Zusammenführung und Dokumentation der Ergebnisse sowie der Erstellung von Empfehlungen für die Gremien der DFG

Antragsberechtigt bezogen auf den Koordinierungsantrag sind alle in den Förderprogrammen von LIS antragsberechtigten Personen und Einrichtungen. Empfehlenswert ist die Antragstellung durch ein eng kooperierendes Konsortium einschlägiger Informationsinfrastruktureinrichtungen. Es wird geraten, die Größe des Konsortiums auf eine nicht allzu hohe Anzahl an Beteiligten zu beschränken. Am Koordinierungsgremium sollten auch Vertreterinnen und Vertreter der Wissenschaft in geeigneter Weise beteiligt werden. Die am erfolgreichen Koordinierungsantrag beteiligten Einrichtungen sind ebenfalls zu einer Antragstellung im Rahmen der Ausschreibung der einzelnen Module berechtigt. Eine Förderung des Koordinierungsprojektes kann zunächst für bis zu drei Jahre bewilligt werden. Eine Verlängerung ist möglich.

Für die Antragstellung gelten die Bedingungen des Merkblatts „Werkzeuge und Verfahren des wissenschaftlichen Informationsmanagements“ (12.13). Bitte legen Sie dem Antrag den „Leitfaden für die Antragstellung – Projektanträge im Bereich Wissenschaftliche Literaturversorgungs- und Informationssysteme“ zugrunde (12.01).

Absichtserklärungen, die die Einreichung von Anträgen ankündigen, werden bis 1. September 2014 erbeten. Die Anträge für das Koordinierungsprojekt werden bis 1. November 2014 erbeten.

Weiterführende Informationen

Am 12. und 13. März 2014 fand in Bonn ein Workshop zum Thema „Verfahren zur Verbesserung von OCR-Ergebnissen“ statt. Die Ergebnisse des Workshops liegen dieser Ausschreibung zugrunde:

Das Merkblatt „Werkzeuge und Verfahren des wissenschaftlichen Informationsmanagements“ (12.13) und der Leitfaden für die Antragstellung – Projektanträge im Bereich „Wissenschaftliche Literaturversorgungs- und Informationssysteme“(12.01) sind zu finden unter:

Ansprechpartnerinnen in der DFG:

  • Ulrike Hintze,
    Wissenschaftliche Literaturversorgungs- und Informationssysteme,
    53170 Bonn,
    Tel.: +49 228 885-2399,
    Fax: +49 228 885-2504,
  • Dr. Angela Holzer,
    Wissenschaftliche Literaturversorgungs- und Informationssysteme,
    53170 Bonn,
    Tel.: +49 228 885-2344,
    Fax: +49 228 885-2504,