Twinpeppers

Small_Forward · Регистрация: 02.03.2006

Попробуйте так:

# преобразуем массив строк HTML-страницы в строку
$html = join("",@html);

# выбираем все ссылки со страницы
@html = $html =~ m/<A[^>]+?HREF\s*=\s*["']?([^'" >]+?)[ '"].*?>/sig;

sergey_ · 30.04.2007, 11:18

не работает

Small_Forward · 30.04.2007, 11:52

#!/usr/bin/perl
# Более подробно

print "Content-type: text/html\n\n";

# указываем путь к HTML-файлу
$file = "/путь к файлу/my_file.htm";

# читаем HTML-файл и пишем все в массив
open (FILE,"<$file"); @html=<FILE>; close(FILE);

# преобразуем массив строк HTML-страницы в строку
$html = join("",@html);

# выбираем все ссылки со страницы
@html = $html =~ m/<A[^>]+?HREF\s*=\s*["']?([^'" >]+?)[ '"].*?>/sig;

# выводим полученные ссылки, каждая - с новой строки
foreach (@html) {
print $_ . "<br>";
}

sergey_ · 30.04.2007, 12:27

интересно, а анкоры вытащить намного сложнее?
можете помочь со скриптом?

Dinozavr · 30.04.2007, 13:34

Цитата:

Сообщение от sergey_

интересно, а анкоры вытащить намного сложнее?
можете помочь со скриптом?

# выбираем все ссылки со страницы
@links= $html =~ m/<A[^>]+?HREF\s*=\s*["']?([^'" >]+?)[ '"].*?>/sig;
@anchors= $html =~ m/<A[^>]+?HREF\s*=\s*["']?[^'" >]+?[ '"].*?>([^<]+)/sig;

# выводим полученные ссылки, каждая - с новой строки
foreach (@links) {
print $_ . "<br>";
}
foreach (@anchors) {
print $_ . "<br>";
}

типа того...

Small_Forward · 30.04.2007, 14:03

Вариантов для реализации очень много, можно и так:

# выбираем все ссылки с анкорами со страницы
while ($html =~ s/<A[^>]+?HREF\s*=\s*["']?([^'" >]+?)[ '"].*?>([^<]+)//si) {
push @Ahtml, $2.": ".$1
}
# выводим полученные анкоры и ссылки, каждую пару - с новой строки
foreach (@Ahtml) {print $_ . "<br>";}

30.04.2007, 11:18	#3
sergey_ Аспирант Регистрация: 09.01.2007 Сообщений: 132 Репутация: -700	Re: Вытаскиваем все ссылки из HTML perl'ом не работает

30.04.2007, 11:52	#4
Small_Forward Студент Регистрация: 02.03.2006 Сообщений: 27 Репутация: 4292	Re: Вытаскиваем все ссылки из HTML perl'ом #!/usr/bin/perl # Более подробно print "Content-type: text/html\n\n"; # указываем путь к HTML-файлу $file = "/путь к файлу/my_file.htm"; # читаем HTML-файл и пишем все в массив open (FILE,"<$file"); @html=<FILE>; close(FILE); # преобразуем массив строк HTML-страницы в строку $html = join("",@html); # выбираем все ссылки со страницы @html = $html =~ m/<A[^>]+?HREF\s=\s["']?([^'" >]+?)[ '"].*?>/sig; # выводим полученные ссылки, каждая - с новой строки foreach (@html) { print $_ . "<br>"; }

30.04.2007, 12:27	#5
sergey_ Аспирант Регистрация: 09.01.2007 Сообщений: 132 Репутация: -700	Re: Вытаскиваем все ссылки из HTML perl'ом интересно, а анкоры вытащить намного сложнее? можете помочь со скриптом?

Twinpeppers

Wednesday, August 20, 2014

Вытаскиваем все ссылки из HTML perl'ом

No comments:

Post a Comment

test

linkwithin