WEZUT OCR Datasets

Baza WEZUT OCR Dataset ver. 1.00 zawiera 176 obrazów przedstawiających fotografie nierównomiernie oświetlonych dokumentów uzyskane za pomocą cyfrowego aparatu fotograficznego DSLR Nikon N70 wraz z referencyjnym plikiem tekstowym 00_GT.txt zawierającym często używany w celach demonstracyjnych tekst "Lorem ipsum". Obrazy przedstawiają zdjęcia dokumentów sporządzonych i wydrukowanych z użyciem pięciu popularnych krojów czcionek (Arial, Times New Roman, Calibri, Courier oraz Verdana) wraz z typowymi modyfikacjami atrybutów (tekst normalny, pogrubiony, pochylony oraz ich kombinacja).

Baza została utworzona na Wydziale Elektrycznym (WE) Zachodniopomorskiego Uniwersytetu Technologicznego w Szczecinie (ZUT). Jej autorzy (Hubert Michalak oraz Krzysztof Okarma) prowadzą badania naukowe w Katedrze Przetwarzania Sygnałów i Inżynierii Multimedialnej (KPSiIM). Głównym celem opracowania bazy jest ewaluacja algorytmów binaryzacji obrazów, opracowywanych w celu przetwarzania wstępnego nierównomiernie oświetlonych obrazów dokumentów poddawanych następnie operacji rozpoznawania tekstu z użyciem oprogramowania OCR.

W przypadku publikowania wyników uzyskanych za pomocą bazy WEZUT OCR Dataset prosimy o odniesienie się do jednego lub kilku spośród następujących artykułów (opublikowanych w modelu Open Access):
Michalak H., Okarma K.: Robust combined binarization method of non-uniformly illuminated document images for alphanumerical character recognition. Sensors, vol. 20 no. 10, article no. 2914, 2020, DOI: 10.3390/s20102914, (plik BIBTeX)
Michalak H., Okarma K.: Improvement of image binarization methods using image preprocessing with local entropy filtering for alphanumerical character recognition purposes. Entropy, vol. 21 no. 6, article no. 562, 2019, DOI: 10.3390/e21060562, (plik BIBTeX)
Michalak H., Okarma K.: Fast binarization of unevenly illuminated document images based on background estimation for optical character recognition purposes. Journal of Universal Computer Science, vol. 25 no. 6, pp. 627-646, 2019, DOI: 10.3217/jucs-025-06-062, (plik BIBTeX)

Baza do pobrania (plik ZIP - 85.5 MB)
Alternatywny link na stronie DIB na serwerze Centro de Informática (CIn), Universidade Federal de Pernambuco (UFPE), Brazylia

Baza WEZUT Video OCR Dataset ver. 1.00 zawiera 20 nierównomiernie oświetlonych sekwencji wideo zarejestrowanych za pomocą cyfrowej kamery Olympus Tough TG-5 12 MPix ze stabilizacją Multi-motion Movie IS. Poszczególne klatki sekwencji wideo przedstawiają dokumenty zawierające ten sam często używany w celach demonstracyjnych tekst "Lorem ipsum". Baza została podzielona na dwie części: 12 plików zarejestrowanych w typowych warunkach z nierównomiernym oświetleniem oraz 8 sekwencji wideo zawierających widoczne cienie.

Baza została utworzona na Wydziale Elektrycznym (WE) Zachodniopomorskiego Uniwersytetu Technologicznego w Szczecinie (ZUT). Jej autorzy (Piotr Lech oraz Krzysztof Okarma) prowadzą badania naukowe w Katedrze Przetwarzania Sygnałów i Inżynierii Multimedialnej (KPSiIM). Głównym celem opracowania bazy jest ewaluacja algorytmów binaryzacji oraz oceny jakości obrazów, opracowywanych w celu przetwarzania wstępnego nierównomiernie oświetlonych obrazów dokumentów poddawanych następnie operacji rozpoznawania tekstu z użyciem oprogramowania OCR.

W przypadku publikowania wyników uzyskanych za pomocą bazy WEZUT Video OCR Dataset prosimy o odniesienie się do następującego artykułu (opublikowanego w modelu Open Access):

Okarma K., Lech P.: A method supporting fault-tolerant optical text recognition from video sequences recorded with handheld cameras. Engineering Applications of Artificial Intelligence, vol. 123 Part B, article no. 106330, 2023, DOI: 10.1016/j.engappai.2023.106330, (plik BIBTeX)

Baza do pobrania (plik ZIP - 1.27 GB)

Zezwala się na korzystanie, kopiowanie lub modyfikowanie tych baz i ich dokumentacji wyłącznie w celach edukacyjnych i badawczych, bez opłat, pod warunkiem, że ta informacja o prawach autorskich oraz nazwiska oryginalnych autorów pojawią się na wszystkich kopiach i dokumentacji uzupełniającej. Bazy danych nie mogą być modyfikowane bez uprzedniej pisemnej zgody jej twórców. Autorzy nie ponoszą odpowiedzialności i nie składają żadnych oświadczeń na temat przydatności tych baz danych do jakichkolwiek celów, są one dostarczane w aktualnym stanie bez wyraźnej lub dorozumianej gwarancji.