Show
Ignore:
Timestamp:
08/21/07 19:12:16 (14 months ago)
Author:
Tarek Ziad?? <tarek@…>
Message:

fixes

Location:
classifier/doc
Files:
2 modified

Legend:

Unmodified
Added
Removed
  • classifier/doc/classifier.txt

    r160 r162  
    2323  >>> tokenizer = AllFilters() 
    2424  >>> classifier = BayesClassifier('fr', backend, tokenizer) 
     25 
     26Le backend doit être vide au début:: 
     27 
     28  >>> backend.word_count() 
     29  0 
    2530 
    2631Le classificateur fait deux choses: apprendre et deviner, pour une langue 
     
    5964  [(u'achetez', 0.99...), (u'kimouss', 0.99...)] 
    6065 
    61   >>> classifier.learn('savon kimouss par-ci, savon par-la, savon toujours', 
     66  >>> classifier.learn('savon kipouss par-ci, savon par-la, savon toujours', 
    6267  ...                  'song') 
    6368  >>> sorted(classifier._buildCategoryWordProbabilities('spam').items()) #2 
    64   [(u'achetez', 0.99...), (u'kimouss', 0.99...), (u'savon', 0.0001)] 
     69  [(u'achetez', 0.99...), (u'kimouss', 0.99...), (u'savon', 0.14...)] 
     70 
     71  >>> classifier.categorySize('song') 
     72  4 
    6573 
    6674  >>> sorted(classifier._buildCategoryWordProbabilities('song').items()) 
    67    [(u'kimouss', 0.0001), (u'par', 0.99...), (u'savon', 0.99...), (u'toujours', 0.99...)] 
     75   [(u'kipouss', 0.99...), (u'par', 0.99...), (u'toujours', 0.99...)] 
    6876 
    6977Ce calcul est fait pour toutes les catégories:: 
     
    7381 
    7482 
    75 La reconnaissance se base sur ce filtrage de mots, puis applque l'algo de 
     83La reconnaissance se base sur ce filtrage de mots, puis applique l'algo de 
    7684Robinson-fisher:: 
    7785 
    7886  >>> classifier.guess('achetez mon savon KIPOUSS') 
    79   [(u'song', 0.99...), (u'spam', 0.5), ...] 
     87  [(u'song', 0.99...), (u'spam', 0.70...), (u'friend', 0.16...)] 
    8088 
    8189We lower default treshold first:: 
     
    126134  >>> source2 = open(file).read() 
    127135  >>> classifier.guess(source2) 
    128   [(u'python', 1.0), (u'doctest', ...e-...)] 
     136  [(u'python', ...), ...] 
    129137 
    130138Le classificateur doit aussi savoir `désapprendre`:: 
     
    133141  >>> classifier.unlearn(source2, 'python') 
    134142  >>> classifier.guess(source2) 
    135   [(u'doctest', 1.0)] 
     143  [(u'doctest', ...), ...] 
    136144 
    137145 
  • classifier/doc/storage.txt

    r157 r162  
    1010    >>> import settings 
    1111    >>> settings.SQLURI = 'sqlite:///%s' % db_file 
     12    >>> import os 
     13    >>> if os.path.exists(db_file): 
     14    ...     os.remove(db_file) 
     15 
    1216 
    1317It works with languages, words, categories, and words within categories:: 
     
    1822bayesian data:: 
    1923 
    20     >>> storage = SQLStorage('tarek') 
    21  
     24    >>> storage = SQLStorage('tester') 
    2225 
    2326Next we can store languages, since each word is in a given language::