4/17/2022

Thuật toán pagerank xếp hạng đồ thị | Ôn tập khai phá web


Pagerank là thuật toán xếp hạng đồ thị dựa trên cấu trúc tổng quát, chúng ta có cách để tính được chính xác thứ hạng của từng đỉnh, tuy nhiên khi số đỉnh càng lớn, việc tính toán chính xác là điều gây mất thời gian và không cần thiết. Trong bài viết này mình sẽ hướng dẫn 3 cách để xếp hạng các đỉnh cho đồ thị (mình gọi nhanh là 3 thuật toán pagerank). Về lý thuyết thì các bạn có thể xem slide bài giảng của các thầy/ cô TẠI ĐÂY.

Đề bài: Cho một đồ thị có 3 đỉnh và quan hệ giữa các đỉnh như hình dưới, với d = 1 (damping factor) hãy tính toán thứ hạng của từng đỉnh.



Trong bài viết này mình giải quyết với damping factor = 1, đây là trường hợp dễ nhất trong các trường hợp, với damping factor khác 1 mình sẽ có bài viết sau giới thiệu lại, vì damping factor khác 1 chúng ta cần lắm rõ lý thuyết và công thức một tí, tuy nhiên thì cơ bản vẫn sẽ tương tự.

1. Tính chính xác pagerank bằng hệ phương trình

Ta có hệ phương trình sau: 

$\begin{cases}r_a = r_c\\r_b = r_a / 2 \\r_c = r_a / 2 + r_b & (1)\\r_a + r_b + r_c = 1\end{cases}$

Mình giải thích qua tại sao lại có hệ phương trình này nha, đầu tiên là tổng thứ hạng của tất cả các đỉnh lúc nào cũng bằng 1 rồi, vậy ta luôn có được phương trình thứ 4 là $r_a + r_b + r_c = 1$.

Tiếp theo để giải được một hệ phương trình có 3 ẩn số thì ít nhất chúng ta phải cần thêm 2 phương trình nữa, ở đây chúng ta sẽ cứ tìm ra hết các phương trình có thể.

Với phương trình đầu $r_a = r_c$, nếu viết đầy đủ thì phải là $r_a = r_c / 1$, với CA là một cạnh của đồ thị và đỉnh C có 1 bậc ra. Với phương trình thứ 2 $r_b = r_a / 2$, với AB là một cạnh của đồ thị và đỉnh A có 2 bậc ra. Với phương trình thứ 3 $r_c = r_a / 2 + r_b$, với AC, BC là một cạnh của đồ thị và A, B lần lượt có 2 và 1 bậc ra.

Tiếp theo việc giải phương trình này thì dễ rồi, chúng ta thay thế xuống phương trình cuối sẽ có: 

$r_a + r_a / 2 + r_a / 2 + r_a / 2 = 1$

$=> r_a = 2 / 5, r_b = 1/5, r_c = 2 /5 $.

Chắc là cũng có nhiều bạn thắc mắc là giải dễ như vậy tại sao lại cần cách các xấp xỉ làm gì? Mình cũng sẽ giải thích luôn là đây chỉ là ví dụ với 3 đỉnh, trong các bài toán thực tế thì một đồ thị thường lên tới hàng triệu đỉnh thì việc giải HPT để tìm ra thứ hạng chính xác là điều cực kì khó khăn và không cần thiết.

2. Tính xấp xỉ pagerank bằng thuật toán lặp

Để bắt đầu cách này trước hết chúng ta vẫn phải tìm ra hệ phương trinh $(1)$ trước nha.

Sau đó bắt đầu chúng ta khởi tạo giá trị thứ hạng cho từng đỉnh: $r_a(0) = r_b(0) = r_c(0) = 1/3$, chúng ta có thể khởi tạo bất kì giá trị nào cũng được nha, nếu khởi tạo hơi lỗi thì chúng ta sẽ phải mất nhiều lần lặp hơn mới tìm ra được điểm hội tụ, còn nếu khởi tạo tốt thì có thể chỉ mất 1,2 vòng lặp. Kí hiệu $(0)$ đằng sau mỗi $r_a, r_b, r_c$ để thể hiện cho số vòng lặp, trong trường hợp khởi tạo thì số vòng đã lặp là 0.

+ Vòng 1: 

$r_a(1) = r_c(0) / 1 = 1 / 3$

$r_b(1) = r_a(0) / 2 = 1 / 6$

$r_c(1) = r_a(0) / 2 + r_b(0) / 1 = 1 / 2$

+ Vòng 2: 

$r_a(2) = r_c(1) / 1 = 1 /2$

$r_b(2) = r_a(1) / 2 = 1/ 6$

$r_c(2) = r_a(1) / 2 + r_b(1) / 1 = 1 /3$

+ Vòng 3: 

$r_a(3) = r_c(2) / 1 = 1 / 3$

$r_b(3) = r_a(2) / 1 = 1/ 4$

$r_c(3) = r_a(2) / 2 + r_b(2) / 1 = 5 / 12$

+ Vòng 4: 

$r_a(4) = r_c(3) / 1 = 5 / 12$

$r_b(4) = r_a(3) / 2 = 1 / 6$

$r_c(4) = r_a(3) / 2 + r_b(3) / 1 = 5 / 12$

+ Vòng ...

Lặp tới bao nhiêu vòng là tùy vào yêu cầu bài toán mà thầy/ cô giáo đưa ra, còn trên thực tế chúng ta sẽ lặp tới khi nào hội tụ, tức là khi mà vòng lặp sau kết quả không đổi so với kết quả trước hoặc là thay đổi nhỏ hơn một số denta rất nhỏ do chúng ta định nghĩa ra trước.

3. Tính xấp xỉ pagerank bằng thuật toán lặp với ma trận

Lặp bằng tay như cách 2 có thể khiến các bạn rơi vào trầm cảm, cách 3 này như là một cách tóm gọn lại của cách 2 bằng ma trận vậy.

Đầu tiên vẫn là khởi tạo giá trị ban đầu $r_a = r_b = r_c = 1 / 3$

Ta có ma trận: 

$\begin{bmatrix}0 & 1/2 & 1/2\\0 & 0 & 1\\1 & 0 & 0\end{bmatrix}$

Ma trận này có được bằng cách lấy 1 chia đều cho số cạnh ra, ví dụ đỉnh A có 2 cạnh ra là AB và AC thì tương ứng vị trí của ma trận là $\begin{bmatrix}0 & 1/2 & 1/2\end{bmatrix}$, tương tự với các đỉnh còn lại.

+ Lặp vòng 1: 

$\begin{bmatrix}1/3 \\ 1/3 \\ 1/3\end{bmatrix} * \begin{bmatrix}0 & 1/2 & 1/2\\0 & 0 & 1\\1 & 0 & 0\end{bmatrix} = \begin{bmatrix}1/3 \\ 1/6 \\ 1/2\end{bmatrix}$

+ Lặp vòng 2: 

$\begin{bmatrix}1/3 \\ 1/6 \\ 1/2\end{bmatrix} * \begin{bmatrix}0 & 1/2 & 1/2\\0 & 0 & 1\\1 & 0 & 0\end{bmatrix} = \begin{bmatrix}1/2 \\ 1/6 \\ 1/3\end{bmatrix}$

+ Lặp vòng 3: 

$\begin{bmatrix}1/2 \\ 1/6 \\ 1/3\end{bmatrix} * \begin{bmatrix}0 & 1/2 & 1/2\\0 & 0 & 1\\1 & 0 & 0\end{bmatrix} = \begin{bmatrix}1/3 \\ 1/4 \\ 5/12\end{bmatrix}$

+ Lặp vòng 4: 

$\begin{bmatrix}1/3 \\ 1/4 \\ 5/12\end{bmatrix} * \begin{bmatrix}0 & 1/2 & 1/2\\0 & 0 & 1\\1 & 0 & 0\end{bmatrix} = \begin{bmatrix}5/12 \\ 1/6 \\ 5/12\end{bmatrix}$

Chúng ta có thể thấy sau 4 lần lặp, kết quả ở cách 3 tương ứng với kết quả ở cách 2.

Để nắm vững kiến thức, các bạn nên đọc thêm slide, làm thêm các bài tập về pagerank, chúc mọi người học tập tốt!

4/10/2022

Sinh viên CNTT kiếm tiền như nào? | Sharing


Sinh viên CNTT thì kiếm tiền như nào? Chắc hẳn là nhiều người sẽ có câu hỏi như vậy khi bắt đầu bước lên đại học và trong các năm học sau đó. Nếu các bạn lên Google và tìm kiếm thì chắc chắn ra rất nhiều kết quả với những công việc khác nhau. Trong bài viết này mình muốn chia sẻ thực tế về những gì mà bản thân mình đã làm hoặc những bạn bè thân thiết của mình từng làm để kiếm thêm thu nhập trong khoảng thời gian là sinh viên.


1. Làm gia sư

Khi còn là sinh viên năm 1-2, kiến thức chuyên ngành bạn chưa có nhiều, trong khi đó bạn vừa phải học các môn đại cương trên trường và những kiến thức từ cấp 3 vẫn còn nắm vững thì làm gia sư là một công việc rất hợp lý.

Gia sư nói chung là một công việc không quá vất vả, nhưng cũng đem lại nguồn thu nhập cũng gọi là ổn định cho các bạn sinh viên. Tuy nhiên mình cũng xin lưu ý tới các bạn khi nhận các lớp, nếu nhận được lớp dạy từ người quen hay bạn bè thì tốt, còn không nếu nhận lớp từ trung tâm thì nên tìm hiểu xem trung tâm đó có uy tín hay không, xem những review về trung tâm trên facebook trước khi cọc tiền. Nói đi cũng phải nói lại, các bạn đi dạy học hãy có một thái độ tốt, chuẩn bị tốt trước khi đi dạy, báo cáo tình hình học tập thường xuyên của học sinh cho phụ huynh. Khi các bạn dạy tốt lúc đó các bạn sẽ được các phụ huynh giới thiệu cho nhau để tới kèm con/em họ, khi đó các bạn còn có thể có lớp dạy mà không cần mất phí tìm lớp qua trung tâm.

2. Giải bài tập thuê trên các ứng dụng online

Cái này thì hình thức nó gần giống gia sư nhưng tự chủ được thời gian hơn một tí, các bạn có thể làm lúc nào các bạn thích. Thu nhập thì chưa chắc đã ổn định tùy vào mức độ chăm chỉ giải bài của bạn.

Trên mạng thì có rất nhiều app kiểu này, mình và một số bạn mình đã từng làm qua một app cũng khá ổn các bạn có thể tham khảo: QUANDA.

3. Đi thực tập

Khi vào tầm cuối năm 2, hoặc là năm 3, 4 lúc đó các bạn có thể nghĩ tới việc đi thực tập tại các công ty. Việc thực tập vừa giúp bạn học hỏi thêm kiến thức, văn hóa ở các công ty cũng giúp bạn có thêm một phần thu nhập từ tiền trợ cấp/lương từ công ty đó. Hầu hết các công ty công nghệ đều sẵn sàng trả cho các thực tập một mức trợ cấp/lương tầm 1-2-3-4 triệu mặc dù đa số các bạn chỉ vào công ty để học hỏi mà chưa đóng góp được gì cho công ty.

Đi thực tập giúp bạn vừa học hỏi được nhiều kiến thức mà cũng giúp bạn có được một nguồn thu nhập ổn định.

4. Làm freelancer

Công việc này đòi hỏi bạn phải có kinh nghiệm, kỹ năng rồi nên mình cũng ghi chú ở đây là dành cho các sinh viên tầm năm 3,4,5 khi mà các bạn đã trang bị cho mình một lượng kiến thức cụ thể và một ít kinh nghiệm khi đi thực tập và làm bài tập lớn trên trường.

Freelancer đơn giản là người ta thuê gì thì mình làm lấy, nhưng mà tìm kiếm các công việc freelancer qua đâu, một số các trang web tìm việc freelancer nổi tiếng tại Việt Nam mà các bạn có thể tìm hiểu như là:

Trên tất cả các kênh này đều lưu lại hồ sơ làm việc của bạn, đây cũng có thể là một vũ khí mạnh mẽ thuyết phục các nhà tuyển dụng sau này khi bạn nộp đơn vào một công ty làm việc.

Ngoài ra, thì bạn có thể nhận các công việc được giới thiệu từ người quen, những người thuê làm đồ án, bài tập lớn trên các group Facebook.

4/06/2022

Khai phá web | Tài liệu, chuyên ngành


Khai phá web là một môn tự chọn được dạy trong học phần kỹ sư của khoa học máy tính và kỹ thuật thuật máy tính. Bởi vì là một môn tự chọn nên các bạn hoàn toàn có thể chọn một môn khác thay thế môn này.

Với khai phá web các bạn sẽ được nhắc lại các kiến thức về Machine learning, Deep learning, một số các phần mới như là tìm kiếm thông tin. Ngoài ra thì các bạn sẽ được đi vào và giới thiệu tới các bài toán cụ thể như là: phân tích liên kết, phân tích quan điểm, trích rút thông tin, khai phá truy vấn & quảng cáo trực tuyến. 

Khi học về những năm cuối, nhất là những bạn theo định hướng hệ thống thông tin thì các bạn sẽ thấy các môn học có sự giao nhau rất nhiều, ví dụ như môn nhập môn khoa học dữ liệu các bạn sẽ thấy có 1 ít về các kiến thức Machine Learning đã được học, 1 ít kiến thức về tìm kiếm thông tin bên khai phá web, 1 ít kiến thức về bigdata đã được học ở lưu trữ và xử lý dữ liệu lớn cộng với 1 phần kiến thức mới là trực quan hóa dữ liệu. Điều này thì cũng hợp lý thôi, các môn học hay các lĩnh vực trong CNTT nói chung và KHMT nói riêng thì có sự liên quan chặt chẽ với nhau chứ không thể nói là môn này, lĩnh vực này tách riêng biệt hoàn toàn với các khác được. Tuy nhiên thì mỗi môn sẽ tập chung vào một phần chính như khi các bạn học nhập môn AI, nhập môn ML các bạn sẽ được tập chung chính vào giới thiệu các thuật toán, cách làm, làm như nào, tối ưu như nào, tức là học sâu về phần mô hình, còn khi học khai phá web các bạn sẽ được giới thiệu sâu hơn về phần ứng dụng như là ứng dụng các mô hình này vào các bài toán thực tế, còn trong nhập môn khoa học dữ liệu các bạn sẽ được học sâu hơn về phần xử lý và trực quan hóa dữ liệu.

Về nhận xét của mình về môn học thì môn học là một môn cũng khá hay, các bạn có thể chọn nó làm 1 trong 3 môn tự chọn kỹ sư của mình.

Thầy dạy môn này có thầy Nguyễn Kiêm Hiếu, thầy thì giao khá nhiều bài tập trong tuần, cũng như các bạn có thể phải làm các bài quizz nhỏ từng tuần. Tuy nhiên thì thầy chấm điểm cũng khá thoáng, học thầy các bạn cũng sẽ được nghe các buổi seminar do sinh viên của thầy trình bày cũng khá hay và thú vị. Các bạn có thể theo dõi website cá nhân của thầy Hiếu tại đây: https://users.soict.hust.edu.vn/hieunk/

Tài liệu môn học

- Slide môn học khai phá web: TẢI VỀ SLIDE
- Đề thi tham khảo khai phá web: TẢI VỀ ĐỀ THI THAM KHẢO