Introduction
MNIST의 벵골어 버전 competition
competition 사이트
-
벵골어는 세계에서 5번째로 많이 사용하며, 방글라데시와 인도에서 많이 사용함
-
49개의 문자(자음 38개, 모음 11개)로 이루어져 있는데 18개의 분음 부호와 악센트로 이루어져 있어 복잡하며, OCR 하기 어려운 문제가 있음
-
비영리 기관 https://bengali.ai/ 에서 대량의 dataset을 구축했으며, 벵골어 인식 연구에 가속화를 위해 공개함
-
벵골어의 문자 하나는 grapheme root, vowel diacritics, consonant diacritics 세개의 요소로 나눌 수 있으며 grapheme root 요소는 168개의 클래스, vowel diacritics 요소는 11개의 클래스, consonant diacritics 요소는 7개의 클래스로 분류됨(아래 그림 확인)
