import numpy as np
import pandas
import seaborn
import scipy.stats as st
import matplotlib.pyplot as plt
import statsmodels.api as sm
import statsmodels.formula.api as smf

## Đọc dữ liệu
data = pandas.read_csv('ool.csv', low_memory=False)

#Chuyển sang giá trị số
data['W1_N1K'] = pandas.to_numeric(data['W1_N1K'], errors='coerce')
data['W1_N1L'] = pandas.to_numeric(data['W1_N1L'], errors='coerce')


# Phân tích mô hình hồi quy tuyến tính
print("Phân tích hồi quy cho 2 biến định lượng")
reg1 = smf.ols('W1_N1K ~ W1_N1L', data=data).fit()
print (reg1.summary())

# Vẽ đồ thị phân tích
scat1 = seaborn.regplot(x="W1_N1L", y="W1_N1K", data=data)
plt.xlabel('Tỷ lệ đánh giá % bà mẹ chưa kết hôn')
plt.ylabel('Tỷ lệ đánh giá tình trạng của những người thất nghiệp')
plt.title('Scatterplot cho mối liên hệ giữa tỷ lệ bà mẹ chưa kết hôn và tình trạng của người thất nghiệp')
plt.show()