Blokowanie robotów w robots.txt i .htaccess

Wyszukiwarki internetowe opierają swoje działanie na analizie kodu i treści zindeksowanych stron. Ale żeby móc to zrobić, muszą najpierw dobrze poznać strony i to nie tylko stronę główną, ale i wszystkie jej podstrony. Do tego procesu używane są roboty sieciowe, nazywane również botami lub pająkami. Są to specjalne programy, które są podstawowymi elementami każdego silnika wyszukiwarki. Ich rolą jest odwiedzanie wszystkich stron i podstron, a następnie kopiowanie ich zawartości do systemu indeksującego wyszukiwarki internetowej. Roboty te podążają wszystkimi hiperłączmi (linami URL) umieszczonymi na stronie.

Robotami sieciowymi w obrębie serwisu, każdy webmaster może sterować. W tym sensie sterować, że może im powiedzieć czy mogą indeksować daną stronę czy nie. Często bowiem się zdarza, że roboty internetowe nie służą wyszukiwarkom internetowym, a osobom wyszukującym miejsc do publikowania spamu. Takie roboty mogą powodować niepotrzebne obciążenia serwerów, więc lepiej je blokować. Do tego używa się plików robots.txt lub zapisów w plikach .htaccess. Ta druga metoda jest bardziej skuteczna na niestandardowe roboty, gdyż one z reguł w ogóle nie biorą pod uwagę instrukcji w plikach robots.txt. Dlatego opiszemy tutaj dwie metody.

robots.txt – blokowanie robotów sieciowych

Zadaniem plików robots.txt jest kontrolowanie działania robotów sieciowych. Dzięki nim określisz jakie roboty mogą mieć dostęp do zasobów serwisu, a które nie. Możesz też uściślić, które katalogi i podstrony serwisu nie powinny być indeksowane przez wyszukiwarki.

I tak, jeśli strona www ma być indeksowana przez wszystkie przeglądarki, to zawartość pliku robots.txt, powinna wyglądać tak:

User-agent: *
Allow: /

Jeśli danego katalogu (np. podstron administracyjnych), wyszukiwarki nie powinny indeksować, trzeba użyć poleceń:

User-agent: *
Disallow: /admin/

Jeśli natomiast chcesz zablokować indeksowanie wszystkim przeglądarkom oprócz Google, to możesz połączyć ze sobą kilka poleceń:

User-agent: *
Disallow: /


User-agent: Googlebot
Allow: /

Lista nazw (User-agent) robotów najpopularniejszych wyszukiwarek:
Googlebot – wiadomo 🙂
Bingbot – Bing
DuckDuckBot -DuckDuckgo
Slurp – Yahoo!
YandexBot -Yandex
Baiduspider – Baidu

Webmasterzy najczęściej chcą jednak, aby jak najwięcej wyszukiwarek zindeksowało ich serwisy. W takim przypadku powinni wstawić plik robots.txt z poleceniami z przykładu pierwszego.

.htaccess – blokowanie robotów

W pliku .htaccess najskuteczniej zablokujesz roboty, które są dla Ciebie niepożądane i nie chcesz aby marnowały transfer i zamulały hosting, na którym znajduje się Twoja strona internetowa. W tym przypadku podstawową rzeczą jest ustalenie adresów IP robotów które chcesz zablokować. Najlepiej można to zrobić przeglądając logi serwera lub skorzystać z jakiś blacklist w internecie.

Gdy już posiadasz takie adresy, to wystarczy dodać odpowiednie linijki kodu do pliku .htaccess (który z reguły już istnieje w katalogu głównym Twojego serwisu):

order allow, deny
deny from 1.1.1.1
deny from 2.2.2.2

W miejscu 1.1.1.1 i 2.2.2.2 należy wstawić adresy IP blokowanych robotów sieciowych. Oczywiście blokować można większą ilość adresów sieciowych, a nawet i całych klas adresów.


Alternatywa dla phpMyAdmin

Webowa aplikacja phpMyAdmin to chyba najpopularniejszy system do zarządzania bazami danych w wersji MySQL. Właściwie każdy hosting w standardzie daje to na narzędzie w panelu użytkownika, dzięki któremu możesz zarządzać tabelami i rekordami bazy danych Twojego serwisu internetowego.

Co prawda narzędzie to jest bardzo proste w obsłudze i intuicyjne, ale jak wszystko nie każdemu może przypaść do gustu. Dlatego warto wspomnieć, że istnieją alternatywy dla tego narzędzia, które mogą okazać się prostsze i wygodniejsze niż phpMyAdmin.

Poniżej lista zamienników phpMyAdmina:

MyWebSQL

Ciekawa alternatywa dla phpMyAdmin. Również działa jako aplikacja webowa, którą trzeba zainstalować na serwerze hostingowym, żeby można zarządzać lokalną bazą MySQL. Z wyglądu przypomina klasyczną aplikację windowsową i jest udostępniania za darmo w ramach licencji .

program mywebsql

Aplikacja posiada górne menu, w którym znajdziesz dużo opcji za pomocą których możesz zarządzać bazą danych np. utworzyć tabelę czy funkcję, można również eksportować i importować bazę, robić kopie zapasowe i wiele innych funkcji. Plusem jest polska wersja językowa i 8 różnych wersji wyglądu interfejsu. MyWebSQL posiada trzy różne edytory języka SQL z kolorowaniem składni wpisywanego kodu. Kolejną ciekawą funkcją jest Process Manager, za pomocą której możesz sprawdzić aktywne procesy serwera MySQL. Najciekawszą opcją w programie jest edytor tabel w trybie graficznym (WYSIWYG), dzięki czemu można tworzyć i edytować bazy danych wizualnie.

Instalacja: Wystarczy wgrać pliki źródłowe na serwer hostingowy, następnie odpalić wpisując ścieżkę do folderu ze skryptem w przeglądarce internetowej. Wyświetli się okienko z logowaniem do bazy MySQL.

Stron projektu – https://github.com/Samnan/MyWebSQL

MySQL Workbench

Ta aplikacja w porównaniu z poprzednią, jest wersją do zainstalowania lokalnie w systemie operacyjnym na komputerze użytkownika. Jest to oficjalna aplikacja stworzona i rozwijana przez firmę Oracle, która jest jednocześnie właścicielem samego projektu MySQL. Narzędzie to jest idealne dla administratorów baz danych, gdyż pozwala również zarządzać całym silnikiem baz MySQL.

program mysql workbench

Program jest dostępny na licencji GNU GPL, więc można go używać bezpłatnie w systemach Windows, Linux czy OS X. Za pomocą MySQL Workbench możesz dowolnie tworzyć i modyfikować tabele, kolumny wiersze, widoki indeksów czy funkcje w bazach. Również posiada możliwość graficznego modelowania baz danych. Program pozwala również na skuteczną migrację baz danych z innych rodzajów systemów bazodanowych typu Microsoft SQL, SQLite, PostgreSQL czy Sybase ASE.

Instalacja: Program należy zainstalować lokalnie na komputerze. Niezbędnym składnikiem do jego instalacji jest Microsoft Visual C++ 2019 Redistributable (który możesz pobrać tutaj).

Strona programu – https://www.mysql.com/products/workbench/

HeidiSQL

Kolejna klasyczna aplikacja instalowana bezpośrednio w systemie operacyjnym komputera, do zarządzania bazami MySQL na serwerze zdalnym (hostingowym). HeidiSQL również jest darmową aplikacją na licencji Open Source, którą można zainstalować na najpopularniejszych systemach typu Windows, Linux i OS X.

program heidisql

Pozwala połączyć się nie tylko z bazami MySQL, ale również i Microsoft SQL i PostgreSQL. Z bazą można połączyć się różnymi sposobami, m.in poprzez bezpieczny tunel SSL (w połączeniu z putty) lub TCP/IP czy named pipes. Program posiada szereg użytecznych funkcji typu narzędzia do wsadowej edycji tabel, moduł zasilania tabel z plików ASCII i binarnych, edytor kwerend z opcją kolorowania składni czy kopiowanie bazy z jednego serwera na drugi (mirror). W HeidiSQL można wyeksportować rekordy do wielu zewnętrznych formatów plików: HTML, CSV, XML, PHP Array, SQL, LaTeX.

Instalacja: Instalator po pobraniu instalujesz domyślnie w systemie Windows, tak jak większość programów.

Strona programu – https://www.heidisql.com


SQL Buddy – to jest starsza wersja programu webowego do administrowania bazami MySQL. Niestety może nie zadziałać na nowszych serwerach z nowszymi wersjami PHP. Ostatnią wersją programu jest ta o numerze 1.3.3, która została wydana w 2011 roku.

SQLyog – płatna alternatywa phpMyAdmin, dzięki której będziesz mógł administrować bazami danych na serwerze.


Jak sprawdzić kolor na stronie www?

Na stronach internetowych poza gotowymi grafikami, często używane są różnego rodzaju elementy graficzne, belki menu, sekcje, tła itp. Mają one określone kolory, które najczęściej ustawia się w kaskadowych arkuszach stylu CSS. Czasami jako webmasterowi spodoba Ci się dany kolor z konkretnego elementu na innej stronie i chciałbyś się dowiedzieć jaki to jest kolor. A konkretniej przydałby się kod koloru w HTML, który można by użyć u siebie przy tworzeniu strony www.

Jaki kolor został użyty na stronie internetowej można sprawdzić w każdej chwili, sprawdzając w przeglądarce internetowej. Na poniższym przykładzie została użyta przeglądarka Opera, aczkolwiek nic nie stoi na przeszkodzie, żeby to była inna np. Firefox czy Chrome, jedynie opis funkcji w menu może się nieznacznie różnić.

Najeżdżasz kursorem na dany element strony, którego kolor chcesz sprawdzić i klikasz prawym przyciskiem myszy, następnie z menu kontekstowego wybierasz Zbadaj element.

zbadaj element

Wyświetli się specjalna konsola dla developerów, w której można sprawdzić wiele aspektów technicznych strony, którą badamy. Jeśli wybrałeś opcję na konkretnym elemencie, to wyświetli się jego fragment kodu źródłowego (w HTML), a poniżej w sekcji Style znajdziesz jaki kolor został użyty w CSS.

sprawdzanie koloru na stronie

W przykładzie na powyższych screenach, badany był kolor belki menu na tej stronie (rankhost.pl), dzięki czemu dowiedzieliśmy się, jaki to jest kolor zapisany w kodzie HTML – #54397E, czyli ciemnofioletowy.

Jak widać, w konsoli sprawdzisz wiele innych kolorów z danej strony np. kolor tła. Jeśli natomiast dany element strony jest grafiką (np. w formacie JPEG), to musisz użyć zewnętrznego programu np. Peacock Color Picker, do którego link umieściliśmy w dodatkach dla webmasterów na naszej stronie.