Changeset 162:ca1529c62df9 for classifier/doc
- Timestamp:
- 08/21/07 19:12:16 (14 months ago)
- Location:
- classifier/doc
- Files:
-
- 2 modified
-
classifier.txt (modified) (5 diffs)
-
storage.txt (modified) (2 diffs)
Legend:
- Unmodified
- Added
- Removed
-
classifier/doc/classifier.txt
r160 r162 23 23 >>> tokenizer = AllFilters() 24 24 >>> classifier = BayesClassifier('fr', backend, tokenizer) 25 26 Le backend doit être vide au début:: 27 28 >>> backend.word_count() 29 0 25 30 26 31 Le classificateur fait deux choses: apprendre et deviner, pour une langue … … 59 64 [(u'achetez', 0.99...), (u'kimouss', 0.99...)] 60 65 61 >>> classifier.learn('savon ki mouss par-ci, savon par-la, savon toujours',66 >>> classifier.learn('savon kipouss par-ci, savon par-la, savon toujours', 62 67 ... 'song') 63 68 >>> sorted(classifier._buildCategoryWordProbabilities('spam').items()) #2 64 [(u'achetez', 0.99...), (u'kimouss', 0.99...), (u'savon', 0.0001)] 69 [(u'achetez', 0.99...), (u'kimouss', 0.99...), (u'savon', 0.14...)] 70 71 >>> classifier.categorySize('song') 72 4 65 73 66 74 >>> sorted(classifier._buildCategoryWordProbabilities('song').items()) 67 [(u'ki mouss', 0.0001), (u'par', 0.99...), (u'savon', 0.99...), (u'toujours', 0.99...)]75 [(u'kipouss', 0.99...), (u'par', 0.99...), (u'toujours', 0.99...)] 68 76 69 77 Ce calcul est fait pour toutes les catégories:: … … 73 81 74 82 75 La reconnaissance se base sur ce filtrage de mots, puis appl que l'algo de83 La reconnaissance se base sur ce filtrage de mots, puis applique l'algo de 76 84 Robinson-fisher:: 77 85 78 86 >>> classifier.guess('achetez mon savon KIPOUSS') 79 [(u'song', 0.99...), (u'spam', 0. 5), ...]87 [(u'song', 0.99...), (u'spam', 0.70...), (u'friend', 0.16...)] 80 88 81 89 We lower default treshold first:: … … 126 134 >>> source2 = open(file).read() 127 135 >>> classifier.guess(source2) 128 [(u'python', 1.0), (u'doctest', ...e-...)]136 [(u'python', ...), ...] 129 137 130 138 Le classificateur doit aussi savoir `désapprendre`:: … … 133 141 >>> classifier.unlearn(source2, 'python') 134 142 >>> classifier.guess(source2) 135 [(u'doctest', 1.0)]143 [(u'doctest', ...), ...] 136 144 137 145 -
classifier/doc/storage.txt
r157 r162 10 10 >>> import settings 11 11 >>> settings.SQLURI = 'sqlite:///%s' % db_file 12 >>> import os 13 >>> if os.path.exists(db_file): 14 ... os.remove(db_file) 15 12 16 13 17 It works with languages, words, categories, and words within categories:: … … 18 22 bayesian data:: 19 23 20 >>> storage = SQLStorage('tarek') 21 24 >>> storage = SQLStorage('tester') 22 25 23 26 Next we can store languages, since each word is in a given language::
