Câu hỏi Biểu thức chính quy có thể được sử dụng trong URL khi duyệt web không?


Tôi biết Google Dorks sử dụng toán tử nâng cao để tìm kiếm từ khóa trên Web và Google Dorks không phải là Regex.

Ngoài sự tò mò, tôi đã thử đặt các ký tự đại diện trong các URL chủ yếu cho các hình ảnh trên các trang web khác nhau mà không làm việc. Hầu hết trong số họ cho thấy các mã lỗi HTTP khác nhau, ngoại trừ 2-3 được chuyển hướng đến một số trang khác trong trang web.

Một số ví dụ không hoạt động:

  • Tìm kiếm tệp PDF. Có 404 : Page Not Found

PDFs Search

  • Tìm kiếm hình ảnh. Có 500 : Internal Server Error

Image regex Search

  • Tìm kiếm tất cả các trang HTML trên Trang web. Trang Lỗi đơn giản

HTML Pages Search

  • Youtube chuyển đổi các ký tự thành các ký tự thập lục phân an toàn.

Youtube Search

Một ví dụ làm việc (Không có ý tưởng làm thế nào):

Windows Tagged Questions

Linux Tagged Questions

Xem Question Tagged ở bên phải trang để xem tất cả tìm kiếm cho từ đó lin*

Tôi xin lỗi Nếu câu hỏi có quá nhiều chi tiết, nhưng tôi thấy nó thích hợp cho một số ví dụ. Vì vậy, ở đây tôi kết luận câu hỏi của mình:

  1. Biểu thức chính quy có thể được sử dụng theo bất kỳ cách nào trong URL trong khi duyệt web không?

  2. Nếu vậy các quy tắc hoặc phương pháp sử dụng chúng là gì?

  3. Cũng thế, Sử dụng phần dưới trang Wikipedia cho cụm từ thông dụng báo giá này:

    Trong khi regexes sẽ hữu ích trên các công cụ tìm kiếm trên Internet, việc xử lý chúng trên toàn bộ cơ sở dữ liệu có thể tiêu tốn tài nguyên máy tính quá mức tùy thuộc vào độ phức tạp và thiết kế của regex. Mặc dù trong nhiều trường hợp, quản trị viên hệ thống có thể chạy các truy vấn dựa trên regex nội bộ, hầu hết các công cụ tìm kiếm không cung cấp hỗ trợ regex cho công chúng. Các ngoại lệ đáng chú ý: Google Code Search, Exalead. Google Code Search đã ngừng hoạt động kể từ tháng 1 năm 2012. [39] Nó sử dụng một chỉ số trigram để tăng tốc các truy vấn. [40]

    Vì vậy, Có phải chúng ta có thể thực hiện tìm kiếm Regex trên Công cụ tìm kiếm chứ không phải trên các trang web?


0
2017-07-21 13:16


gốc


Trong khi bạn thực hiện một ví dụ tốt đẹp của câu hỏi, câu hỏi của bạn chính nó vẫn còn khó hiểu. Về cơ bản, URL chỉ là một chuỗi và cách nó sẽ được phân tích cú pháp ở bên nhận nó phụ thuộc vào cách nó xử lý trên mặt nhận, vì vậy câu trả lời trong hầu hết các trường hợp - KHÔNG. Nếu câu hỏi cụ thể của bạn liên quan đến cách sử dụng công cụ sửa đổi trên công cụ tìm kiếm cụ thể - đó là một câu chuyện khác và AFAIK google không hỗ trợ đầy đủ tính năng regex - Alex


Các câu trả lời:


Nói chung, không. (Ngoài ra ký tự đại diện và cụm từ thông dụng cũng không giống nhau.)

Mỗi trang web quyết định hoàn toàn về sở hữu đường dẫn và truy vấn nên được diễn giải như thế nào. Đường dẫn có thể tương ứng với các tệp thực sự hoặc chúng có thể ánh xạ tới các tài nguyên trừu tượng như "câu hỏi" hoặc "bài đăng". (ví dụ: SuperUser không thực sự có thư mục được gọi là questions đầy đủ các thư mục con được đánh số - đường dẫn chỉ cho biết phản hồi để tạo ra.)

Điều này cũng có nghĩa là mỗi trang web sẽ quyết định liệu trang web đó có hỗ trợ ký tự đại diện (hoặc biểu thức chính quy hay bất kỳ phương pháp lọc nào khác) hay không. Thông thường, việc thêm tính năng này sẽ cần lập trình bổ sung cho trang web.

Như bạn đã phát hiện, Super User đã thực hiện các ký tự đại diện cho việc duyệt thẻ - rất hữu ích khi tìm tất cả các câu hỏi liên quan đến Windows (và có thể dễ dàng hơn để triển khai thực hiện hơn các thẻ phân cấp).

Tuy nhiên, ví dụ: ID video YouTube hoàn toàn ngẫu nhiên, do đó không sử dụng bất kỳ điều gì trong việc cố gắng liệt kê tất cả các video có ID bắt đầu bằng RgK... hoặc bất kỳ tiền tố nào khác. Vì vậy, YouTube đã không thực hiện điều đó.

Máy chủ web "đơn giản", chỉ phục vụ tệp .html bình thường, có thể triển khai tính năng này vì chúng thường có danh sách thư mục tự động. Tuy nhiên, nhiều chủ sở hữu trang web sẽ không muốn điều này - ví dụ: họ có thể có các trang "không công bố" chỉ được một vài người biết đến.

(Có một tính năng tương tự trong Apache httpd, cho phép bạn có được một danh sách thư mục đầy đủ thậm chí nếu tệp index.html hiện diện. Nhưng nó phải được tắt theo mặc định, bởi vì nhiều người thực sự dựa vào index.html như một phương thức đáng tin cậy để vô hiệu hóa các danh sách đó.)


1
2017-07-21 13:44



Câu trả lời của bạn bao gồm các kịch bản ví dụ của tôi và tôi thực sự cần phải biết sự khác biệt giữa Regex và WildCards. - C0deDaedalus
Tôi tự hỏi làm sao bạn biết được rằng SuperUser không thực sự có một thư mục gọi là questions ? Bạn đã sử dụng chưa dirb dụng cụ. - C0deDaedalus
@ C0deDaedalus tra cứu các tập tin .htaccess và chuyển hướng. Nó sẽ chỉ cho bạn cách bạn có thể chuyển hướng mọi thứ dựa trên các mẫu khác nhau. Tôi tin rằng một số loại regex có thể được sử dụng trong .htaccess mặc dù. - LPChip