2 posts tagged with "Time Series" | Hướng Nghiệp Dữ Liệu

Dự báo chuỗi thời gian với mô hình ARIMA

March 14, 2025 · 2 min read

Mô hình ARIMA (AutoRegressive Integrated Moving Average) là một trong những phương pháp phổ biến để dự báo chuỗi thời gian. Trong bài viết này, chúng ta sẽ thực hiện xây dựng mô hình ARIMA để phân tích dữ liệu Close của cổ phiếu.

1️⃣ Cài đặt thư viện cần thiết

Trước tiên, chúng ta cần cài đặt thư viện statsmodels nếu chưa có:

pip install statsmodels pandas numpy

2️⃣ Xây dựng mô hình ARIMA

Dưới đây là các bước chính để xây dựng mô hình ARIMA:

from statsmodels.tsa.arima.model import ARIMA
import pandas as pd


# Dữ liệu mẫu (có thể thay thế bằng dữ liệu thực tế)
data = pd.DataFrame({
    'Datetime': ["2025-03-07", "2025-03-10", "2025-03-11", "2025-03-12", "2025-03-13"],
    'Close': [26650.0, 26450.0, 26450.0, 26300.0, 26100.0],
    'High': [26800.0, 26750.0, 26450.0, 26700.0, 26450.0],
    'Low': [26350.0, 26400.0, 26100.0, 26200.0, 26100.0],
    'Open': [26500.0, 26700.0, 26300.0, 26500.0, 26350.0],
    'Volume': [12984900, 11003400, 12961400, 8814301, 13510500]
})

# Bước 1: Khởi tạo & Xây dựng mô hình ARIMA
model = ARIMA(data['Close'], order=(5, 1, 0))  # Ví dụ với tham số (p, d, q)

# Bước 2: Huấn luyện mô hình

print(model_fit.summary())

# In ra tóm tắt mô hình
print(model_fit.summary())

3️⃣ Giải thích các tham số mô hình ARIMA

Mô hình ARIMA có ba tham số chính (p, d, q):

p (AutoRegressive - AR): Số lượng độ trễ của chuỗi thời gian. d (Differencing - I): Số lần lấy sai phân để làm dừng chuỗi. q (Moving Average - MA): Số bậc của trung bình trượt.

💡 Ví dụ: (5,1,0): Sử dụng 5 độ trễ, lấy sai phân 1 lần, và không có trung bình trượt. (2,1,2): Sử dụng 2 độ trễ, lấy sai phân 1 lần, và 2 bậc trung bình trượt.

📌 Kết luận Mô hình ARIMA là một công cụ mạnh mẽ để dự báo chuỗi thời gian. Tuy nhiên, việc lựa chọn tham số (p, d, q) phù hợp yêu cầu kiểm tra tính dừng của dữ liệu và tinh chỉnh để đạt kết quả tối ưu.

🔥 Ở bài viết tiếp theo, chúng ta sẽ sử dụng ADF Test để kiểm định tính dừng của chuỗi thời gian! 🚀

Kiểm định Tính Dừng của Chuỗi Thời Gian với ADF Test

March 14, 2025 · 3 min read

🔍 Giới thiệu

Trong phân tích chuỗi thời gian, việc kiểm tra tính dừng (stationarity) rất quan trọng. Nếu dữ liệu không dừng, nó có thể dẫn đến kết quả sai lệch khi dự báo. Augmented Dickey-Fuller (ADF) Test giúp xác định xem dữ liệu có đơn vị gốc (unit root) hay không.

📌 Dữ liệu mẫu

Chúng ta sử dụng tập dữ liệu sau:

Datetime	Close	High	Low	Open	Volume
2025-03-07	26650	26800	26350	26500	12984900
2025-03-10	26450	26750	26400	26700	11003400
2025-03-11	26450	26450	26100	26300	12961400
2025-03-12	26300	26700	26200	26500	8814301
2025-03-13	26100	26450	26100	26350	13510500

📝 Code

import pandas as pd
from statsmodels.tsa.stattools import adfuller

# Tạo DataFrame từ dữ liệu mẫu
data = pd.DataFrame({
    'Datetime': pd.to_datetime([
        "2025-03-07", "2025-03-10", "2025-03-11", "2025-03-12", "2025-03-13"
    ]),
    'Close': [26650, 26450, 26450, 26300, 26100],
    'High': [26800, 26750, 26450, 26700, 26450],
    'Low': [26350, 26400, 26100, 26200, 26100],
    'Open': [26500, 26700, 26300, 26500, 26350],
    'Volume': [12984900, 11003400, 12961400, 8814301, 13510500]
})

# Đặt 'Datetime' làm chỉ mục
data.set_index('Datetime', inplace=True)

# Kiểm định ADF
result = adfuller(data['Close'])

# In kết quả
print('ADF Statistic: {:.6f}'.format(result[0]))
print('p-value: {:.6f}'.format(result[1]))
print('Critical Values:')
for key, value in result[4].items():
    print(f'\t{key}: {value:.3f}')

# Đưa ra kết luận
if result[1] > 0.05:
    print("Chuỗi có đơn vị gốc (không ổn định), cần phải differencing.")
else:
    print("Chuỗi ổn định, không cần biến đổi.")

🎯 Kết quả & Giải thích Sau khi chạy kiểm định ADF, chúng ta sẽ nhận được:

ADF Statistic: Giá trị thống kê kiểm định p-value: Nếu p-value > 0.05, chuỗi không ổn định (cần biến đổi). Ngược lại, nếu p-value ≤ 0.05, chuỗi ổn định. Critical Values: Các giá trị tới hạn tại mức ý nghĩa 1%, 5%, 10%. Nếu chuỗi không ổn định, ta có thể dùng data['Close'].diff().dropna() để tạo sai phân (differencing) giúp chuỗi trở nên ổn định.

📌 Ứng dụng thực tế ✅ Kiểm tra tính dừng trước khi xây dựng mô hình ARIMA, GARCH. ✅ Tránh lỗi khi sử dụng dữ liệu không ổn định trong phân tích chuỗi thời gian. ✅ Xác định xem có cần biến đổi dữ liệu trước khi dự báo không.

1️⃣ Cài đặt thư viện cần thiết​

2️⃣ Xây dựng mô hình ARIMA​

3️⃣ Giải thích các tham số mô hình ARIMA​

🔍 Giới thiệu​

📌 Dữ liệu mẫu​