JavaString

Class 'String', 'StringBuffer', 'StringBuilder', 'Stringtokenizer'

Java does not have a build in string type, aber es gibt die Klasse String. Diese Klasse hat eine grossen Vorteil. Der Inhalt eines Strings ist nicht änderbar, daher kann man String Objekt, die z.B. private member sind, zurückgeben.

int l = "beispiel".length();

class X 
{
  private String l = "abc";

  String ReturnLocalString() 
  {
    return l;
  }
}

X o = new X();
String s = o.ReturnLocalString();
s = "xyz";	// geht, aber ändert nicht den Wert des private members

Ein String Literal besteht aus 0 bis n Zeichen, die in Hochkommatas eingeschlossen sind. Zeichensatz ist Unicode. The Unicode Character Set, or Universal Character Set (UCS) as it's commonly known, contains nearly 100,000 abstract characters, each identified by an unambiguous name and an integer number called its code point. Unicodezeichen können mit \uxxxx (xxxx=Hexadezimal) spezifiziert werden. Der Codepoint eines Unicode-Zeichens ist nur eine abstrakte Nummer. Der Codepoint legt noch keinerlei computerkompatible Darstellung fest, dies ist Aufgabe des Codierschemas. Da die Unicode-Codepoints von U+0000 bis U+10FFFF (hexadezimale Zahlendarstellung), mit einer beabsichtigten Lücke zwischen U+D7FF und U+E000, reichen, sind für eine vollständige Codierung des gesamten Codepoint-Bereichs als Binärzahl mindestens 3 Byte erforderlich.

Since Java 5 the char data type is based on the 4.0 Unicode specification (UTF-32), which defined characters as fixed-width, 16-bit entities (since Java 7 it is Unicode 6.0, but normally still 2 bytes for one char, only in special cases 4 bytes).

Da Computer viel besser mit Vielfachen von 2 umgehen können, hat man kein Codierschema mit 3 Bytes definiert, sondern als simpelste Variante UTF-32 festgelegt, bei dem jede Codeeinheit 32 Bit = 4 Bytes groß ist. Der Codepoint jedes Zeichens wird hierbei einfach als 32-Bit-Zahlwert gespeichert.

UTF-8 ist die am weitesten verbreitete Kodierung für Unicode-Zeichen. UTF-8 ist in den ersten 128 Zeichen (Indizes 0–127) deckungsgleich mit ASCII und eignet sich mit in der Regel nur einem Byte Speicherbedarf für Zeichen vieler westlicher Sprachen besonders für die Kodierung englischsprachiger Texte, die sich im Regelfall ohne Modifikation daher sogar mit nicht-UTF-8-fähigen Texteditoren ohne Beeinträchtigung bearbeiten lassen, was einen der Gründe für den Status als De-facto-Standard-Zeichenkodierung des Internets und damit verbundener Dokumenttypen darstellt. Bei der UTF-8-Kodierung wird jedem Unicode-Zeichen eine speziell kodierte Zeichenkette variabler Länge zugeordnet. Dabei unterstützt UTF-8 Zeichenketten bis zu einer Länge von vier Byte.

The '\n' (linefeed) character represents the single Unicode character with the value 10 ('\u000A') and is used to separate lines in Unix files. For files you can use System.getProperty("line.separator"). JTextArea lines uses a single '\n' character, not the sequence that is used for file line separators in the operating system.

Java berechnet Stingliterale zur Compilezeit und sorgt dafür, dass jedes Stringliteral nur einmal vorkommt, und zwar im sogenannten constant pool. Es gibt eine Methode intern der Klasse String, die offensichtlich die Konstantenverwaltung der Strings einsetzt. Um Strings zu manipulieren gibt es die Klasse ‘StringBuffer’. Sie eignet sich auch für einen Konvertierung von den verschiedenen Datentypen in einen String z.B. durch:

StringBuffer sb = new StringBuffer();
sb.append(100);
String s = new String(sb);

The standard library contains a predefined String class with the following above 50 members:

charAt()	0-based
compareTo()
endsWith()
equals()
length()
replace()
startsWith()
substring(<StartIndex0based>)
substring(<StartIndex0based>,<EndIndex0based>)
toLowerCase()
toUpperCase()
trim()

Strings können wie folgt initialisiert werden:

String s1 = "abc";
String s2 = new String("abc"); // erzeugt unnötigerweise ein weiteres String-Objekt

Strings können wie folgt konkateniert werden:

String s1 = s2 + s3;

Strings sollten immer mit equals() verglichen werden. Um einfache Strings zu zerlegen bietet sich der Stringtokenizer an:

StringTokenizer st = new StringTokenizer(<String>,<StringWithSepChar>);
while (st.hasMoreTokens())
{
  String s = st.nextToken();
}

Test, ob leer

bis Java 5 einschliesslich:

 null != s && 0 < s.trim().length()

ab Java 6

 s.isEmpty()

Reguläre Ausdrücke

Mit dem Paket java.util.regex lässt sich mithilfe der Klassen Matcher und Pattern eine Zeichenkette gegen ein Muster prüfen.

boolean b = Pattern.matches( "a*b", "aaaaab" );