İçindekiler:
Tanımı - Tokenization ne anlama geliyor?
Tokenization, bir dizgi dizisini kelimeler, anahtar kelimeler, ifadeler, semboller ve jeton adı verilen diğer öğeler gibi parçalara ayırma eylemidir. Jetonlar bireysel kelimeler, deyimler veya hatta tüm cümleler olabilir. Tokenizasyon işlemi sırasında noktalama işaretleri gibi bazı karakterler atılır. Jetonlar ayrıştırma ve metin madenciliği gibi başka bir işlem için girdi haline gelir.
Tokenization, sözcük analizi sürecinde büyük rol oynadığı bilgisayar biliminde kullanılır.
Techopedia, Jetonlamayı Açıklıyor
Tokenizasyon, birkaç adımı izleyerek tokenleri ayırmak için çoğunlukla basit buluşsal yöntemlere dayanır:
- Jetonlar veya kelimeler boşluk, noktalama işareti veya satır sonu ile ayrılır
- İhtiyaca göre beyaz boşluk veya noktalama işaretleri dahil edilebilir veya edilmeyebilir
- Bitişik dizelerdeki tüm karakterler jetonun bir parçasıdır. Jetonlar yalnızca tüm alfa karakterlerden, alfasayısal karakterlerden veya sayısal karakterlerden oluşabilir.
Jetonlar da ayırıcılar olabilir. Örneğin, çoğu programlama dilinde, tanımlayıcılar beyaz boşlukları olmayan aritmetik işleçlerle birlikte yerleştirilebilir. Her ne kadar bu tek bir kelime veya jeton olarak görünecek gibi görünse de, dilin dilbilgisi aslında matematik operatörünü (bir jeton) bir ayırıcı olarak görür, bu nedenle birden fazla jeton bir araya getirilse bile, yine de matematiksel olarak ayrılabilirler. Şebeke.
