| Twarz |
|
|
WprowadzenieWysoce porządane, komputerowe rozpoznawania osób na podstawie obrazu ich twarzy jest wciąż, pomimo upływu czasu i wysokich nakładów, bardziej w przestrzeni marzeń niż dojrzałych rozwiązań, nie prezentując niestety zadowalającej skuteczności. Twarz to prawdopodobnie najlepsza widzialna cecha charakterystyczna każdej osoby. Rozpoznajemy inne osoby przede wszystkim poprzez ich twarze (choć oczywiście możliwe jest również inne rozpoznawanie, np. po głosie osoby mówiącej przez telefon lub po chodzie osoby zbliżającej się z oddali). Poza tym, jeśli znamy daną osobę, to rozpoznanie jest bardzo szybkie i nie wymaga z naszej strony żadnego wysiłku. Jeśli widzimy daną osobę po raz pierwszy, to również błyskawicznie i z dużym prawdopodobienstwem jesteśmy w stanie to stwierdzić. Skonstruowanie automatycznego systemu, rozpoznającego ludzkie twarze w sposób zbliżony do sposobu, w jaki robią to ludzie, jest równie trudnym jak i ekscytującym wyzwaniem. Jedną z głównych zalet idealnego systemu tego rodzaju jest jego pasywność, tzn. system biometryczny nie wymaga szczególnych zachowań ze strony użytkowników, co nie jest ciągle możliwe do osiągnięcia przy zastosowaniu innych technik biometrycznych. Choć obecnie korzystanie z systemu biometrii twarzy jest dla użytkowników mniej wymagające niż korzystanie z innych systemów biometrycznych, to jednak ciągle wymaga ono pewnego zaangażowania ze strony użytkownika, np. zatrzymania się na moment przed obiektywem kamery. Wyzwania konstrukcyjne związane z budową automatycznego systemu rozpoznawania twarzy wiążą się głównie z następującymi faktami:
![]() Rysunek 1. Twarz upiornego klauna widziana w różnym oświetleniu. ![]() Rysunek 2. Pomieszczenie biurowe w różnym oświetleniu.
![]() Rysunek 3. Różne pozycje głowy jednej osoby.
![]() Rysunek 4. Mimika twarzy jednej osoby.
Warto zauważyć, że systemy rozpoznawania twarzy muszą radzić sobie z kilkoma mniejszymi podzadaniami, które są zwykle niezauważane dla ludzi. Są to m.in.:
Systemy bazujące na sekwencji videoSekwencja video jest szczególnym źródłem informacji, które może zostać wykorzystane do celów rozpoznawania twarzy. W skrajnym, najprostszym przypadku sekwencja video może zostać potraktowana jako zbiór zwykłych zdjęć. W nieco bardziej wyszukanym podejściu informacja czasowa zawarta w sygnale video może również zostać wykorzystana. Śledzenie twarzy jest zasadniczym elementem systemów bazujących na sekwencji video. Także ocena jakości pojedynczej klatki i estymacja pozycji głowy są zwykle ważniejsze niż w systemach wykorzystujących pojedyncze zdjęcia, gdzie środowisko jest najczęściej ściślej kontrolowane. Środowisko działania systemów video jest z założenia dużo mniej ograniczone. Jest to jedna z najważniejszych cech takich systemów: proces rozpoznania może przebiegać “w locie”, nie zmuszając idącej osoby do podejmowania żadnych dodatkowych akcji. Działanie systemu staje się praktycznie niezauważalne dla użytkownika. Powyższe właściwości sprawiają, że środowisko (obraz wejściowy) jest bardziej nieuporządkowane, a dopuszczalny czas przetwarzania jest ściśle ograniczony. Wszystko to, w porównaniu z klasycznymi systemami, które nie wykorzystują video, pociąga za sobą dodatkowe problemy natury technicznej. Reasumując, można powiedzieć, że główna różnica między systemami nie korzystającymi z sekwencji video, a tymi przetwarzającymi informacje zawarte w video polega na tym, że podczas gdy te pierwsze korzystają z kilku (lub nawet jednego) zdjęć dobrej jakości i zwykle jednej osoby naraz, te drugie wykorzystują wiele ujęć (pojedynczych klatek sekwencji) słabej jakości i często kilku osób jednocześnie. Rozpoznawanie twarzy 3DPodejście dwuwymiarowe, wrażliwe na zróżnicowane oświetlenie i wszelkie przesłonięcia, opearuje w efekcie na bardzo odmiennych rastrach pikseli należących do tej samej klasy (ang. intra-class problem). W połączeniu ze zróżnicowanymi wyrazami twarzy dostajemy, więc eksplozję możliwych kombinacji. Ludzki mózg szybko generalizuje analizowany obraz i świetnie radzi sobie z kompensacją np. wszelkich odstępstw od standardowych ujęć frontalnych. Dla przyzwoitych wyników w kontekście rozpoznawania 2D mówimy jednak wciąż o bardzo restrykcyjnym i kontrolowanym środowisku. Jako alternatywę, w ostatnich latach, proponuje się pozyskiwanie znacznie większej ilości informacji i reprezentację twarzy jako modeli przestrzennych. Rozszerzenie wymiarowości danych pociąga za sobą zarówno negatywne, jak i pozytywne skutki. Co ważne, pomimo wierniejszej reprezentacji wciąż zakłada się, choć nie zawsze wprost, sztywność rozważanej powierzchni twarzy, co pociąga za sobą słabe rezultaty w przypadku zmiennej mimiki. Użycie płaskiej metryki euklidesowej, gdzie odległości nie odpowiadają wartością rzeczywistym powoduje, iż próba uchwycenia zależności pomiędzy lokalizowanymi punktami charakterystycznymi jest wielkim wyzwaniem. Jako remedium proponuje się wykorzystywanie metryki geodezyjnej gdzie odległość definiowana jest jako najkrótsza ścieżka łącząca dwa punkty, ale biegnąca po rozważanej powierzchni. Chociaż metody trójwymiarowe nie rozwiązują wszystkich problemów klasycznego rozpoznawania dwuwymiarowego jak np. starzenie czy przesłonięcia, przewiduje się, iż w miarę szybszej i lepszej rejestracji cyfrowej wyprą one swoje rastrowe odpowiedniki. Nastąpi to jednak tylko pod warunkiem obniżenia kosztów sprzętu skanującego oraz rozległych badań naukowych wykazujących wyraźną przewagę w przypadku uwzględnienia dodatkowo opisu trójwymiarowego. Techniki rozpoznawania 3D najczęściej przybierają postać metod statystycznych operujących na mapach głębokości (ang. range image, depth map) określanych też czasem jako informacje 2,5-wymiarowe (Rys.5a), gdzie jasności pikseli rastra reprezentuje pomierzone relatywne odległości obiektu od źródła skanowania. Z powodzeniem stosuję się przy tym sprawdzone i najdojrzalsze z dotychczas opracowanych metod rozpoznawania dwuwymiarowego takie jak : Analiza Głównych Składowych (PCA) dla pełnej mapy głębokości lub jej wybranych fragmentów, a także jej poziomych i pionowych gradientów (Rys.5b,c). Innym podejściem z tej kategorii, nieprzynoszącym jednak dobrych rezultatów, jest rozpoznawanie na podstawie krzywizn powierzchni w tym krzywizn głównych, średniej krzywizny (Rys.5d) krzywizny Gauss’a (Rys.5e) lub operatora kształtu (Rys.5f). Krzywizny wraz z odpowiednią segmentacją najczęściej używane są jako podstawa do wyszukiwania punktów charakterystycznych twarzy (np. Rys.5g). Po udanym etapie ekstrakcji konstelacji takich punktów, na ich zestawie przeprowadzane są obliczenia mająca na celu uchwycenie zachodzącymi pomiędzy nimi zależności. Tworzenie tak rozumianej sygnatury łączyć może się między innymi z obliczaniem odległości euklidesowych, geodezyjnych, kątów oraz proporcji odległości pomiędzy punktami, wyznaczaniem lokalnych kształtów wybranych obszarów na podstawie uśrednionych wartości krzywizn a także wyznaczaniem współczynników dla falek Gabor’a. ![]() Rysunek 5 a) mapa głębokości b) gradient poziomy mapy głębokości c) gradient pionowy mapy głębokości d) krzywizna gauss'a e) średnia krzywizna f) opartaor kształtu g) automatycznie zlokalizowane wybrane punkty charakterystyczne Drugą rodziną metod są te korzystające z pełnej geometrii gdzie po wstępnym procesie normalizacji na podstawie znajdowanych kilku punktach kluczowych (np. Rys.5g) oraz normalizacji szczegółowej najczęściej za pomocą algorytmu ICP (ang. Interative Closest Points), bezpośrednio porównywane są kształty zarejestrowanych powierzchni (Rys.6), a dokładniej odległości pomiędzy jej punktami przy użyciu metryki Hausdorff’a lub średniego błędu kwadratowego (MSE). W przypadku ICP zakłada się sztywność powierzchni pozwalając jedynie na globalne transformacje takie jak skalowanie oraz rotację i translację punktów. Należy mieć na uwadze, iż pomimo dobrych rezultatów proces prowadzący do pożądanej zbieżności jest bardzo wolny przynosząc słabe wyniki dla zróżnicowanej mimiki. Aby zminimalizować ten niepożądany syndrom próbkuje się twarz w celu odnalezienia regionów, które w jak najmniejszym stopniu ulegają deformacji przy zmianach wyrazu twarzy, aby następnie używać ich zamiast całej powierzchni. Stosując przecięcia powierzchni płaszczyzną uzyskać można zestaw profili poziomych lub pionowych (Rys.7), które są świetnymi dyskryminatorami po warunkiem pracy jednynie w obszarze twarz o neutralnej mimice. Innym podejściem jest próba rozpoznawania twarzy na podstawie porównywania statystyk na zbiorach wektorów normalnych do fragmentów powierzchni twarzy (Rys.8), jednak badania w danym obszarze są stosunkowo niewielkie. ![]() Rysunek 6 Dopasowanie powierzchni wedle ICP po wstępnej unifikacji pozycji ![]() Rysunek 7 Powierzchnie przecięte protopadłymi płaszczyznami wraz z utworzonymi w ten sposób profilami lewej strony twarzy ![]() Rysunek 8 Siatka trójkatna (triangulacja Dalone) wraz z wybranymi wektorami normalnymi do jej fragmentów Pracownia Biometrii NASKObecnie w Pracowni Biometrii NASK prowadzone są badania nad systemami rozpoznawania twarzy na podstawie sekwencji video, ze szczególnym naciskiem na metody detekcji i śledzenia twarzy z użyciem informacji o kolorze. Kolor okazuje się być stabilną i niewymagającą obliczeniowo cechą, która może być efektywnie wykorzystana w systemach rozpoznawania twarzy na podstawie sekwencji video. Drugą gałęzią badań, która została w niedawnym czasie podjęta przez laboratorium dotyczy trójwymiarowego obrazu twarzy. Obecnie badania w tym obszarze obejmują analizę istniejącego sprzętu skanującego dostarczającego surowych danych w postaci chmury punktów w czasie rzeczywistym, lokalizacje samej twarzy wraz z punktami charakterystycznymi, oraz odnalezienie formy danych wejściowych, które dadzą najbardziej właściwą podstawę do utworzenia sygnatury. Testy prowadzone są na kilku trójwymiarowych bazach pochodzących z kilku wiodących ośrodków naukowych na świecie. Rozważana jest również próba stworzenia i wykorzystanie pierwszej bazy zawierającej sekwencje obrazów 3D. |