Новости | FAQ | Авторы | Документация | В действии | Библиотека |
Инструменты | Полезные ссылки | Хостинги | Скачать | Примеры | Форум |
Sanja v.2 29.08.2003 11:03
Делаешь выборку из базы, отсортированную по всем полям, кроме ID. Пишешь цикл:Если (все поля след. строки == все поля текущей строки){ Удалить текущую строку Перейти к следующей строке }{ Перейти к следующей строке }Если записи в строках не идентичны, а похожи (ну, чуть-чуть различается написание и т.п., есть опечатки), зачитываешь базу в SPSS и делаешь по ней кластерный анализ (K-means clustering, sqaured Euclidean distances). Дубликаты должны попасть в одни и те же кластеры, их cluster membership записывается в новый столбец таблицы. По этому значению ты и будешь грохать "лишних".