Project

General

Profile

Actions

Feature #151

open

[BE] Training set - Tìm domainname crawler

Added by Lê An 11 months ago. Updated 11 months ago.

Status:
Resolved - Dev
Priority:
Normal
Assignee:
Category:
BE
Target version:
Start date:
11/07/2023
Due date:
11/09/2023 (about 11 months late)
% Done:

100%

Estimated time:
8:00 h
Spent time:
Actions #1

Updated by Lê An 11 months ago

  • Due date set to 11/08/2023
  • % Done changed from 0 to 70
  • Estimated time set to 8:00 h

2023/11/08

Solution : Base trên pysite để thực hiện phát triển

Kết quả :
  1. Crawl từ domain : 80%
    1. So với chatbase nhanh hơn x2 lần
    2. So về kết quả kết quả đẹp hơn ví dụ hblab.vn : chatbase 63 page của crawl mới dc 136 page
  2. Crawl từ sitemap : N/A
  3. Tích hợp 2 mục.
Open issue :
  • Hiện chỉ crawl được link có format http://hblab.vn/xxx link nội bộ /category/porn-hub chưa crawl dc
Actions #2

Updated by Lê An 11 months ago

  • Due date changed from 11/08/2023 to 11/09/2023
Actions #3

Updated by Lê An 11 months ago

  • Status changed from In Progress to Resolved - Dev
  • % Done changed from 70 to 100

2023/11/09

Đã làm
- Đã crawl được từ domain url ( tuha.vn, hblab.vn ... )
- Tự động tìm kiếm và craw từ sitemap
- Tăng tốc độ crawl so với ChatBase ~ 200%
- Tăng lượng page tìm được ~ 200%
Tiếp theo
- N/A ( test tích hớp với #122 )

Actions

Also available in: Atom PDF