parser

Написать ответ на текущее сообщение

 

 
   команды управления поиском

Ответ

Sanja v.2 29.08.2003 11:03

Делаешь выборку из базы, отсортированную по всем полям, кроме ID. Пишешь цикл:
Если (все поля след. строки 
== все поля текущей строки){
   Удалить текущую строку
   Перейти к следующей строке
}{
   Перейти к следующей строке
}
Если записи в строках не идентичны, а похожи (ну, чуть-чуть различается написание и т.п., есть опечатки), зачитываешь базу в SPSS и делаешь по ней кластерный анализ (K-means clustering, sqaured Euclidean distances). Дубликаты должны попасть в одни и те же кластеры, их cluster membership записывается в новый столбец таблицы. По этому значению ты и будешь грохать "лишних".