Видалення дублікатів рядків
Вставте список і миттєво видаліть дублікати рядків. Оберіть режим порівняння з урахуванням регістру або без, видаліть зайві пробіли перед порівнянням і залишайте перше або останнє входження. Попередній перегляд змін доступний до застосування.
Вхідний текст
Параметри дедублікації
Оберіть спосіб виявлення дублікатів, перегляньте виділений попередній перегляд і натисніть «Застосувати».
Вважати великі та малі літери різними значеннями — «Яблуко» та «яблуко» зберігаються як окремі рядки.
Видаляти пробіли на початку і в кінці кожного рядка перед порівнянням — « привіт » і «привіт» вважатимуться однаковими.
Якщо знайдено дублікат, зберігати останнє входження замість першого.
Чому варто використовувати цей інструмент?
Видалення дублікатів — одне з найпоширеніших завдань при очищенні списків: під час дедублікації email-адрес, наборів ключових слів, файлів журналів або об'єднання даних із різних джерел. Цей інструмент виконує дедублікацію рядків повністю у вашому браузері. Ваші дані ніколи не покидають пристрій.
Порівняння без урахування регістру: виявляйте дублікати незалежно від регістру літер. «ПОМИЛКА», «помилка» та «Помилка» — це один і той самий запис у режимі без урахування регістру.
Нормалізація пробілів: невидимі пробіли на початку або в кінці рядка часто призводять до того, що дублікати залишаються непоміченими. Увімкніть «Обрізати пробіли», щоб виявити записи, що відрізняються лише пробілами.
Скасування будь-якої дії: кожне застосування відстежується в історії. Натисніть «Скасувати», щоб миттєво відновити попередній текст.
Як користуватися
- 1
Вставте список у текстове поле вище — по одному елементу на рядок. Можна вставляти з електронної таблиці, текстового файлу або будь-якого іншого джерела.
- 2
Оберіть параметри: увімкніть «З урахуванням регістру», якщо регістр має значення; «Обрізати пробіли», щоб ігнорувати пробіли навколо рядків; «Зберігати останнє входження», якщо потрібна остання версія кожного дубліката.
- 3
Перегляньте панель попереднього перегляду. У стовпці «До» червоним виділено кожен рядок, який буде видалено; у стовпці «Після» показано очищений список.
- 4
Натисніть «Застосувати», щоб оновити текстове поле очищеним списком, потім «Копіювати результат», щоб скопіювати до буфера обміну.
Часті запитання
Який алгоритм використовує цей інструмент для видалення дублікатів?
Інструмент використовує однопрохідний алгоритм дедублікації на основі Set. Він перебирає кожен рядок один раз, будуючи нормалізований ключ порівняння (після необов'язкового обрізання та приведення до нижнього регістру), і використовує JavaScript Set для відстеження вже побачених ключів. Рядки, ключ яких вже є в Set, позначаються як дублікати та виключаються з виводу. Алгоритм працює за час O(n) відносно кількості рядків.
Чи безпечні мої дані під час використання цього інструменту?
Так, повністю. Інструмент для видалення дублікатів рядків працює на 100% на стороні клієнта у вашому браузері за допомогою JavaScript. Жоден текст ніколи не надсилається на сервер, не зберігається в базі даних і ніде не журналюється. Ви можете безпечно вставляти списки email-адрес, паролі, конфіденційні документи або будь-які інші чутливі дані — жодне з них не покидає ваш пристрій.
У чому різниця між режимом з урахуванням регістру та без?
У режимі без урахування регістру (типово) інструмент перетворює кожен рядок на нижній регістр перед порівнянням, тому «Яблуко», «ЯБЛУКО» та «яблуко» вважаються одним записом і зберігається лише перший. У режимі з урахуванням регістру ці три рядки вважаються різними і всі три зберігаються. Використовуйте режим з урахуванням регістру, коли ви працюєте з даними, де регістр є значущим — наприклад, ідентифікатори програм або паролі.
Навіщо зберігати останнє входження замість першого?
У деяких робочих процесах останнє входження значення є найактуальнішою версією. Наприклад, якщо у вас є файл журналу, де кожен рядок представляє подію і дублікати ідентифікаторів з'являються тому, що запис було оновлено, збереження останнього рядка дає найновіший стан. Типовий варіант (зберігати перший) кращий, коли потрібно зберегти початковий порядок перших появ.
Що саме робить параметр «Обрізати пробіли»?
Коли «Обрізати пробіли» увімкнено, інструмент видаляє пробільні символи на початку і в кінці кожного рядка перед порівнянням з іншими. Це означає, що рядок « привіт » (з пробілами навколо) порівнюється як «привіт» і відповідатиме рядку «привіт». Оригінальний вміст рядка — включно з пробілами — зберігається у виводі; обрізається лише ключ порівняння, а не сам рядок.
Чи можна використовувати цей інструмент для дедублікації CSV або табличних даних?
Так, але інструмент працює з цілими рядками. Якщо вставити по одному значенню на рядок (один стовпець із таблиці), він працює ідеально. Для багатостовпчикових даних CSV кожен повний рядок порівнюється як одиниця — два рядки вважаються дублікатами лише якщо збігаються всі поля. Щоб дедублікувати за одним стовпцем у багатостовпчикових даних, спершу витягніть цей стовпець, видаліть тут дублікати, потім об'єднайте знову. Потрібно порівняти дві версії списку? Спробуйте наш інструмент порівняння тексту.
Що відбувається з порожніми рядками?
Порожні рядки обробляються як будь-який інший рядок. Якщо у вхідних даних є кілька порожніх рядків, усі, крім першого (або останнього, залежно від налаштувань), будуть видалені як дублікати. Якщо потрібно видалити всі порожні рядки повністю, скористайтеся інструментом «Виправити пробіли», який має спеціальну опцію «Видалити порожні рядки». Поєднання обох інструментів дає повністю очищений список.
Більше безкоштовних текстових інструментів
Лічильник слів
Рахуйте слова, речення, читабельність та більше в реальному часі.
Знайти та замінити
Знаходьте та замінюйте текст з опціональною підтримкою регулярних виразів.
Конвертер регістру
Конвертуйте текст у верхній, нижній регістр, назву та більше.
Порівняти текст
Порівняйте два текстові блоки та виділяйте кожну зміну.
Видалити пробіли
Видаліть зайві пробіли, виправте переноси рядків PDF та очистіть текст.
related_tools_sort_lines
related_tools_sort_lines_desc