Ответ

Sanja v.2 29.08.2003 11:03

Делаешь выборку из базы, отсортированную по всем полям, кроме ID. Пишешь цикл:

Если (все поля след. строки 
== все поля текущей строки){
   Удалить текущую строку
   Перейти к следующей строке
}{
   Перейти к следующей строке
}

Если записи в строках не идентичны, а похожи (ну, чуть-чуть различается написание и т.п., есть опечатки), зачитываешь базу в SPSS и делаешь по ней кластерный анализ (K-means clustering, sqaured Euclidean distances). Дубликаты должны попасть в одни и те же кластеры, их cluster membership записывается в новый столбец таблицы. По этому значению ты и будешь грохать "лишних".

Шой-то я не соображу., redactor [M] 28.08.2003 20:05
- Ответ, djns 02.07.2004 03:22
- Попробуй INSERT IGNORE ... SELECT во вспомогательную таблицу, Luzhnikovskiy [M] 29.08.2003 11:19
  - ОНО! Спасибо (-), redactor [M] 29.08.2003 11:28
- Строки клоны, egr 29.08.2003 10:42
  - Наверное надо было, redactor [M] 29.08.2003 10:49
    - Ответ, Sanja v.2 [M] 29.08.2003 11:03
      - Саня, не пугай народ, egr 29.08.2003 11:24
- Ответ, Slаffka 28.08.2003 23:28 / 28.08.2003 23:29
- А искать на форуме не пробовал?, CODer 28.08.2003 23:22
- Ответ, Slava 28.08.2003 20:41
  - Мне надо найти не distinct и удалить (-), redactor [M] 28.08.2003 21:01

Новости	FAQ	Авторы	Документация	В действии	Библиотека
Инструменты	Полезные ссылки	Хостинги	Скачать	Примеры	Форум