import numpy import pandas import scipy.stats as st import statsmodels.api as sm import seaborn import statsmodels.formula.api as smf import matplotlib.pyplot as plt pandas.set_option('display.float_format', lambda x:'%.2f'%x) #Đọc dữ liệu data = pandas.read_csv('2014and2015CSMdataset.csv', low_memory=False) sub1=data[(data['Genre']>=3) & (data['Genre']<=10)] recode1 = {"2014":0 ,"2015":1} sub1['Year1']= sub1['Year'].map(recode1) sub1['Year1'] = pandas.to_numeric(sub1['Year1'], errors='coerce') data['Likes'] =pandas.to_numeric(data['Likes'], errors='coerce') data['Genre'] = pandas.to_numeric(data['Genre'], errors='coerce') data['Views'] =pandas.to_numeric(data['Views'], errors='coerce') data['Comments'] =pandas.to_numeric(data['Comments'], errors='coerce') scat1 = seaborn.regplot(x="Comments", y="Likes", data=data) plt.xlabel('Tổng số lượng Comments') plt.ylabel('Tổng số lượng Likes') plt.title('Scatterplot cho mối liên hệ giữa tổng số lượng Comments và Tổng số lượng Likes') plt.show() ### seaborn.factorplot(x="Year", y="Likes", data=sub1, kind="bar", ci=None) plt.xlabel('Year') plt.ylabel('Likes') plt.title('Scatterplot cho mối liên hệ giữa Tổng số lượng Likes và số năm') plt.show() print ('mối liên hệ giữa số Likes và tổng số lượng của Comments') print (st.pearsonr(data['Likes'], data['Comments'])) ################### Mô hình hồi quy tuyến tính ########################## print ("mô hình hồi quy OLS cho mối liên hệ giữa lượt Views và năm") reg1 = smf.ols('Views ~ Year ', data=data).fit() print (reg1.summary()) sub1 = sub1[['Views', 'Year1']].dropna() # group means & sd print ("Trung bình") ds1 = sub1.groupby('Year1').mean() print (ds1) print ("Độ lệch chuẩn") ds2 = sub1.groupby('Year1').std() print (ds2)