NAS

Elasticsearch Stemmer entfernt Buchstaben

Yuuri

Fleet Admiral
Registriert
Okt. 2010
Beiträge
13.930
Hallo zusammen,

jemand da, der sich mit der Elasticsearch auskennt?

Ich versuche grad den deutschen Stemmer anzuwenden...
Code:
GET _analyze
{
  "text": "hütte",
  "tokenizer": "standard",
  "filter": [
    {
      "type": "stemmer",
      "language": "german"
    }
  ]
}
Code:
{
  "tokens": [
    {
      "token": "hutt",
      "start_offset": 0,
      "end_offset": 5,
      "type": "<ALPHANUM>",
      "position": 0
    }
  ]
}

Kann mir jemand verraten, wo das e am Ende hin ist? In der Doku findet sich nichts und Google spuckt nichts Brauchbares aus. Nehme ich Englisch als Sprache, bleibt das e erhalten.

edit: Mit deutschem Analyzer verschluckt er gar zwei:

Code:
GET _analyze
{
  "text": "hüttabaee",
  "analyzer": "german"
}
Code:
{
  "tokens": [
    {
      "token": "huttaba",
      "start_offset": 0,
      "end_offset": 9,
      "type": "<ALPHANUM>",
      "position": 0
    }
  ]
}



LG
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Drahminedum
Zurück
Oben