Analyzers comuns

From Basef
Jump to: navigation, search
  • Analyzer padrão: Este é o analyzer padrão usado pelo ElasticSearch e em geral funciona bem independente do idioma. Ele funciona quebrando o texto em palavras removendo pontuações e passando todo conteúdo para letras minúsculas. Números existentes no texto são mantidos. Por exemplo: "Eu nasci a 10 mil (sim, 10 mil) anos atrás" gera as seguintes entradas "eu", "nasci", "a", "10", "mil", "sim", "10", "mil", "anos", "atrás".


  • Analyzer simples: Quebra o texto em tudo o que não seja uma letra e passando todo o texto para letras minúsculas. Como números não são letras, eles não geram entradas. E.g.: "Eu nasci a 10 mil (sim, 10 mil) anos atrás" gera as seguintes entradas "eu", "nasci", "a", "mil", "sim", "mil", "anos", "atrás".


  • Analyzer de espaço em branco: Quebra o texto por espaços em branco. Não há alteração na caixa das letras. Por exemplo: "Eu nasci a 10 mil (sim, 10 mil) anos atrás" gera as seguintes entradas "Eu", "nasci", "a", "10", "mil", "(sim", "10", "mil)", "anos", "atrás".


  • Analyzers específicos para idiomas: São analyzers que quebram o texto assim como o analyzer padrão, porém são capazes de aplicar peculiaridades do idioma e melhorar a geração das entradas para um idioma em específico. Técnicas como singularização dos termos, remoção de palavras que não possuem relevância para o resultado, como palavras comuns do idioma e uso da palavra na sua forma mais raíz (conhecido como stemming), são aplicadas.


Outros analyzers: https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-analyzers.html