Difference between revisions of "Tokenizer"
Jump to navigation
Jump to search
(New page: Ein '''Tokenizer''' segmentiert einen Strom linguistischer Daten (in der Regel: einen Text) in eine Folge von (textuellen) Grundeinheiten: Wortformen und Interpunktionszeichen. {{w...) |
Wohlgemuth (talk | contribs) m |
||
| (One intermediate revision by one other user not shown) | |||
| Line 1: | Line 1: | ||
| − | Ein '''Tokenizer''' segmentiert einen Strom linguistischer Daten (in der Regel: einen Text) in eine Folge von (textuellen) Grundeinheiten: Wortformen und Interpunktionszeichen. | + | Ein '''Tokenizer''' segmentiert einen Strom linguistischer Daten (in der Regel: einen Text) in eine Folge von (textuellen) Grundeinheiten: Wortformen und Interpunktionszeichen. Die so identifizierten Einheiten werden als [[Token]] bezeichnet. |
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
{{wb}} | {{wb}} | ||
| + | {{stub}}{{cats}} | ||
| + | {{ref}} | ||
Latest revision as of 11:27, 20 February 2009
Ein Tokenizer segmentiert einen Strom linguistischer Daten (in der Regel: einen Text) in eine Folge von (textuellen) Grundeinheiten: Wortformen und Interpunktionszeichen. Die so identifizierten Einheiten werden als Token bezeichnet.
| STUB |
| CAT | This article needs proper categorization. You can help Glottopedia by categorizing it Please do not remove this block until the problem is fixed. |
| REF | This article has no reference(s) or source(s). Please remove this block only when the problem is solved. |