Unicode Character Suche

KamehamehaX10

Banned
Registriert
Mai 2012
Beiträge
575
Folgendes Problem:

Ich bekomme 2 Inputs:
Einmal einen String, dann nochmal eine Stringcollection bzw. mehrere andere Strings.
Richtig, ich möchte den einen mit den Strings aus der Collection vergleichen. Dabei ergibt sich jedoch folgendes Problem:

Die Strings sind in UTF-8 kodiert. Möchte ich nun nach einem "p" suchen (Ich gebe dies in die entsprechende Textbox ein) wird nur nach "LATIN P"s gesucht, "CYRILLIC P"s sehen wirklich genauso aus, haben aber einen anderen Keycode, dementsprechend schlägt das fehl, obwohl die beiden per se "identisch" sind.
Wie löse ich nun das Problem? Es wird C# verwendet.
Natürlich könnte ich mir selbst eine "Map" erstellen und manuell vergleichen. Allerdings würde sich das nur bei automatisierter Erstellung lohnen (hehe). Frage ist, ob es bereits eine andere Lösung gibt.

Vielen vielen Dank im Voraus

Kamehameha_by_rad66203.gif
 
Da wirst du um eine manuelle Erstellung einer Map wahrscheinlich nicht herumkommen.
 
Identisch im Sinne von "sehen gleich aus", ja.
Und ich kann auch leider im Voraus nicht wissen, welcher "Sprachen-Subzeichensatz" verwendet wird, ja.
 
Mir ist der Sinn des Ganzen noch nicht so ganz klar oder hier wurde nicht richtig zwischen Font und dem Code unterschieden. Das Aussehen wird ja vom Font bestimmt. Wenn im Unicode Zeichen ähnlich aussehen bedeutet das aber noch lange nicht, dass sie auch eine ähnliche Bedeutung haben. Wenn ich im koreanischen ein Zeichen finde, dass aussieht wie "o", dann heißt das doch noch lange nicht, dass es auch ein "o" ist.

Wenn jemand in deutscher, englischer oder sonstiger Sprache schreibt, dann sollten auch die Worte in der Collection eigentlich bereits in diesem Code gespeichert sein. Ein deutschen Wort im kyrillischen Alphabet zu speichern macht wohl eher weniger Sinn.

Problematisch könnte es lediglich werden, wenn eine Sprache eigentlich mehrere Sprachen umfasst wie zB das chinesische, das ganze Sprachen wie Mandarin, Wu, Kantonesisch usw. umfasst. Aber dann benötigt man eben auch unterschiedliche Collections.
 
Zurück
Oben