URL - Vorschriften

Die Reihenfolge der URL ist festgelegt, es ist also nicht möglich, eine andere Reihenfolge als zugangsprotokoll://hostadresse:port/pfad zu benutzen. Der Syntax ist im RFC 1738 festgelegt. Unter anderem gilt für URL's, dass es keinen Unterschied zwischen Klein- und Großchreibung gibt. Außerdem sind nur 37 Zeichen des US-ASCII (Americam Code for Information Exchange) zugelassen, und zwar die Ziffern von 0 bis 9, die Buchstaben a bis z und das Zeichen -.

Seit dem 01.03.2004 ist es möglich, Domainnamen unter anderem bei der deNIC mit Sonderzeichen zu registrieren. Da man jedoch am bestehenden Standard nicht ändern wollte, ist es notwendig, dass man die sonderzeichenhaltigen Zeichen in einen ASCII kompatible Zeichenkette (String) überführt.
Dafür wird der Domainname mittels Namerep (siehe RFC 3491) zuerst eine normalisierte Form des IDN (internationalized Domain Name) gewandelt. Das bedeutet, dass unter anderem Großuchstaben in Kleinbuchstaben umgewandelt werden und Zeichen, die zueinander äquivalent sind ausgetauscht werden. Auf Grund des Austausches der äquivalenten Zeichen ist es auch mit den IDN nicht mglich, das deutsche ß zu integrieren, da das ß durch ein ss ersetzt wird. Eine Unterscheidung zwischen dem Domainnamen kanzlerstraße.de und kanzlerstrasse.de ist somit nicht gegeben.
Danach wird der Domainname mittels Punycode (siehe RFC 3492) in eine Zeichenkette umgewandelt, die nur noch ASCII-Zeichen enthält. Dieser sogenannte ACE (ASCII Compatible Encoding) String enthält einen Präfix (
xn--), der anzeigt, dass es sich um eine IDN handelt. Des weiteren werden alle nicht ASCII-Zeichen entfernt und das Zeichen sowie die Stelle kodiert. Die 37 Zeichen des ASCII-Codes, die bisher erlaubt waren, werden nicht kodiert, sondern hintereinander geschrieben.
Beispiel: aus dem Domainnamen
müller wird der ACE String xn--mller-kva. Im unserem Beispiel ist in kva der Umlaut ü codiert, welcher an 2. Stelle des Domainnamens steht. Sollten mehrere Sonderzeichen in einem Domainnamen vorhanden sein, so wird dieses Anhägsel entsprechend länger.
Das genaue Kodierverfahren mit Pseudocode ist im RFC 3492 beschrieben.
Es gibt auch Programme, die diese beiden Algorithmen umsetzen, zum Beispiel den IDN-Coder.

Das nun resultierende Problem liegt darin, dass der Domainname ungleich der Adresse ist. Aus diesem Grund führte man den oben erwähnten IDN ein, die im whois-Verzeichnis (Adressbuch für Webseiten) mit dem Domainnamen gespeichert wird. Da aber auch die Länge des Domainnamen festgelegt ist (laut RFC 1034 dürfen es nur 63 Zeichen sein) muss man bei den IDN's beachten, dass hier die Anzahl der Zeichen im ACE String zählt, nicht die des Domainnamen.
Das heiß, dass müller nicht 6 Stellen im Domainnamen hat, sondern 13, da der Prefix und die kodierten Sonderzeichen mitzählen.

Jedes NIC kann den Umfang der zugelassenen Zeichen selbst festlegen. Die deNIC hat 92 Sonderzeichen (darunter zum Beispiel auch französische und dänische) zugelassen.

Allerdings gibt es auch Nachteile:
Zum Ersten hat der ehemalige Monopolist VeriSign mit seinem eigenen Registrar NSI und weiteren 48 Unternehmen bereits im Jahr 2000 einen eigenen Standard entwickelt, den sogenannten RACE (Row-based ASCII Compatible Encoding). Dadurch sind viele Namen schon vergriffen. Um die RACE-String in einen ACE String zu konvertieren, genügt es, den RACE-Prefix
bn-- durch xn-- zu ersetzen.
Zum anderen stellt es ein Problem dar, ausländische Namen einzugeben. Allerdings kann man sich mit Programmen den ACE String erstellen und diesen dann in die Adresszeile des Browsers eingeben.

zurück zu URL - Port und PfadLast Update: 16.06.2004

weiter zu URL - Problem