How Should I Look at a Dataset

2. Measures of Central Tendency in Python

values = [7, 2, 3, 4, 5, 6, 7, 7, 9, 4]

Mean

mean = sum(values) / len(values)

6.4

Median

values = sorted(values)
n = len(values)
if n % 2 == 0:
    lo_med = values[n//2 - 1]
    hi_med = values[n//2]
    median = (lo_med + hi_med) / 2
else:
    median = values[n//2]

6.5

Mode

freqs = {}
for value in values:
    if value in freqs:
        freqs[value] += 1
    else:
        freqs[value] = 1
mode = -1
hi_freq = 0
for value, freq in freqs.items():
    if freq > hi_freq:
        mode = value
        mode_freq = hi_freq

Monday, July 1st

Today's Lesson:

Warm-Up

http://gg.gg/1b9wxp

Statistics for Describing Datasets

Early Statistics

Early Data Collection

Adolphe Quetelet

Normal Distribution

Fancis Galton

Regression

Correlation

How Should I Look at a Dataset

1. Ask yourself, What Kind of Data Do I Have?

2. Measures of Central Tendency

2. Measures of Central Tendency in Python

2. Measures of Central Tendency w/ Pandas

3. Measures of Dispersion

3. Measures of Dispersion in Python

3. Measures of Dispersion w/ Pandas

4. Percentiles and Quartiles

4. Percentiles and Quartiles w/ Pandas

5. Data Distribution

6. Correlation and Covariance

6. Correlation and Covariance w/ Pandas

9. Outliers