Difference between revisions of "Tokenizer"
Jump to navigation
Jump to search
m |
Wohlgemuth (talk | contribs) m |
||
| Line 1: | Line 1: | ||
Ein '''Tokenizer''' segmentiert einen Strom linguistischer Daten (in der Regel: einen Text) in eine Folge von (textuellen) Grundeinheiten: Wortformen und Interpunktionszeichen. Die so identifizierten Einheiten werden als [[Token]] bezeichnet. | Ein '''Tokenizer''' segmentiert einen Strom linguistischer Daten (in der Regel: einen Text) in eine Folge von (textuellen) Grundeinheiten: Wortformen und Interpunktionszeichen. Die so identifizierten Einheiten werden als [[Token]] bezeichnet. | ||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
{{wb}} | {{wb}} | ||
| + | {{stub}}{{cats}} | ||
| + | {{ref}} | ||
Latest revision as of 11:27, 20 February 2009
Ein Tokenizer segmentiert einen Strom linguistischer Daten (in der Regel: einen Text) in eine Folge von (textuellen) Grundeinheiten: Wortformen und Interpunktionszeichen. Die so identifizierten Einheiten werden als Token bezeichnet.
| STUB |
| CAT | This article needs proper categorization. You can help Glottopedia by categorizing it Please do not remove this block until the problem is fixed. |
| REF | This article has no reference(s) or source(s). Please remove this block only when the problem is solved. |