Best off-the-shelf classifier in the world

Июнь 24, 2008

Data Mining Survivor: Classification – Boosting:

The Boosting meta-algorithm is an efficient, simple, and easy to program learning strategy. The popular variant called AdaBoost (an abbreviation for Adaptive Boosting) has been described as the «best off-the-shelf classifier in the world» (attributed to Leo Breiman by Hastie et al. (2001, p. 302)). Boosting algorithms build multiple models from a dataset, using some other learning algorithm that need not be a particularly good learner. Boosting associates weights with entities in the dataset, and increases (boosts) the weights for those entities that are hard to accurately model. A sequence of models is constructed and after each model is constructed the weights are modified to give more weight to those entities that are harder to classify. In fact, the weights of such entities generally oscillate up and down from one model to the next. The final model is then an additive model constructed from the sequence of models, each model’s output weighted by some score. There is little tuning required and little is assumed about the learner used, except that it should be a weak learner! We note that boosting can fail to perform if there is insufficient data or if the weak models are overly complex. Boosting is also susceptible to noise.


Июнь 24, 2008

Google Browser Sync for Firefox 3 | Grant Midwinter:

If you, like me, are tired of getting told to use Foxmarks or Weave – that DONT do everything GBS does despite anyone who tells you different – then have heart. We’d like to hear from you as to whether you’d be interested in a similar extension made by our team here? Also let us know of the features that are key – of course secure encryption, speed and reliability are big focuses but anything outside of that then slap down a comment and we’ll come up with a feature list.


Игры с регулярными выражениями и grep

Июнь 20, 2008

Есть директория mei с 5-ю файлами и одной поддиректорией:

sasha@zenon2:~/Documents/papers$ ls -l mei
total 2860
-rw------- 1 sasha sasha  265621 2006-12-04 15:39 article-12-2004-5.pdf
-rw------- 1 sasha sasha  505856 2005-09-14 14:11 control2005_3.doc
drwxr-xr-x 3 sasha sasha    4096 2008-06-20 23:17 diss
-rw------- 1 sasha sasha  690688 2004-05-27 13:48 exponenta.doc
-rw------- 1 sasha sasha 1084416 2005-06-01 15:20 ivanovo.doc
-rw------- 1 sasha sasha  351216 2006-12-11 11:38 teploen_2006_06.pdf

Надо подсчитать число файлов. Пробуем «начинается на что угодно, кроме d (directory)»:

sasha@zenon2:~/Documents/papers$ ls -l mei | grep -c ^[^d]
6

Лишку, т.к. посчитал и строку «total 2860″. Пробуем кроме «d» или «t»

sasha@zenon2:~/Documents/papers$ ls -l mei | grep -c ^[^dt]
5

Правильно, но лучше, начинается только с «-»:

sasha@zenon2:~/Documents/papers$ ls -l mei | grep -c ^[-]
5

Теперь, есть текстовый файл public.txt со списком статей (каждая начинается с * и номера):

sasha@zenon2:~/Documents/papers$ grep  ^*[0-9] public.txt
*12. Технологии искусственного интеллекта в задачах диагностики
*10. Технологии искусственного интеллекта в задачах диагностики
*9. Модифицированный генетический алгоритм для задач оптимизации и
*8?. Диагностика информационных подсистем АСУТП с использованием
*7. К вопросу о параметрической оптимизации алгоритмов управления и
*20. Диагностика информационных подсистем АСУТП с использованием
sasha@zenon2:~/Documents/papers$

Номер 8 помечен «?», т.к. для него приведена мертвая ссылка. Для остальных скачены файлы (в директории mei). Надо проверить совпадение числа файлов (5) числу ссылок в public.txt (кроме помеченной «?»). Начинается с «*», затем идет цифра, затем все (цифра или точка), кроме «?»:

sasha@zenon2:~/Documents/papers$ grep  ^*[0-9][^?] public.txt
*12. Технологии искусственного интеллекта в задачах диагностики
*10. Технологии искусственного интеллекта в задачах диагностики
*9. Модифицированный генетический алгоритм для задач оптимизации и
*7. К вопросу о параметрической оптимизации алгоритмов управления и
*20. Диагностика информационных подсистем АСУТП с использованием
sasha@zenon2:~/Documents/papers$ grep -c ^*[0-9][^?] public.txt
5

Славненько.


Excellent download manager for Firefox

Июнь 20, 2008

Browse Download Management :: Firefox Add-ons:

DownThemAll! by Federico Parodi, Nils Maier, others recommended Preview Image of DownThemAll! 234 reviews 358,679 weekly downloads * Download Management The first and only download manager/accelerator built inside Firefox!

Встроенный, идет как add-on, просто чудо как хорош/