Zachodniopomorski Uniwersytet Technologiczny w Szczecinie

WEZUT OCR Dataset

Baza WEZUT OCR Dataset ver. 1.00 zawiera 176 obrazów przedstawiających fotografie nierównomiernie oświetlonych dokumentów uzyskane za pomocą cyfrowego aparatu fotograficznego DSLR Nikon N70 wraz z referencyjnym plikiem tekstowym 00_GT.txt zawierającym często używany w celach demonstracyjnych tekst  "Lorem ipsum". Obrazy przedstawiają zdjęcia dokumentów sporządzonych i wydrukowanych z użyciem pięciu popularnych krojów czcionek (Arial, Times New Roman, Calibri, Courier oraz Verdana) wraz z typowymi modyfikacjami atrybutów (tekst normalny, pogrubiony, pochylony oraz ich kombinacja).

Baza została utworzona na Wydziale Elektrycznym (WE) Zachodniopomorskiego Uniwersytetu Technologicznego w Szczecinie (ZUT). Jej autorzy (Hubert Michalak oraz Krzysztof Okarma) prowadzą badania naukowe w Katedrze Przetwarzania Sygnałów i Inżynierii Multimedialnej (KPSiIM).

Głównym celem opracowania bazy jest ewaluacja algorytmów binaryzacji obrazów, opracowywanych w celu przetwarzania wstępnego nierównomiernie oświetlonych obrazów dokumentów poddawanych następnie operacji rozpoznawania tekstu z użyciem oprogramowania OCR.
Zezwala się na korzystanie, kopiowanie lub modyfikowanie tej bazy i jej dokumentacji wyłącznie w celach edukacyjnych i badawczych, bez opłat, pod warunkiem, że ta informacja o prawach autorskich oraz nazwiska oryginalnych autorów pojawią się na wszystkich kopiach i dokumentacji uzupełniającej. Baza danych nie może być modyfikowana bez uprzedniej pisemnej zgody jej twórców. Autorzy nie ponoszą odpowiedzialności i nie składają żadnych oświadczeń na temat przydatności tej bazy danych do jakichkolwiek celów, jest ona dostarczana w aktualnym stanie bez wyraźnej lub dorozumianej gwarancji.

W przypadku publikowania wyników uzyskanych za pomocą bazy WEZUT OCR Dataset prosimy o odniesienie się do jednego lub kilku spośród następujących artykułów (opublikowanych w modelu Open Access):
  • Michalak H., Okarma K.: Robust combined binarization method of non-uniformly illuminated document images for alphanumerical character recognition. Sensors, vol. 20 no. 10, article no. 2914, 2020, DOI: 10.3390/s20102914, (plik BIBTeX)
  • Michalak H., Okarma K.: Improvement of image binarization methods using image preprocessing with local entropy filtering for alphanumerical character recognition purposes. Entropy, vol. 21 no. 6, article no. 562, 2019, DOI: 10.3390/e21060562, (plik BIBTeX)
  • Michalak H., Okarma K.: Fast binarization of unevenly illuminated document images based on background estimation for optical character recognition purposes. Journal of Universal Computer Science, vol. 25 no. 6, pp. 627-646, 2019, DOI: 10.3217/jucs-025-06-062, (plik BIBTeX)

Baza do pobrania (plik ZIP)