Ինչպես հաշվարկել արտանետումները

Հեղինակ: Janice Evans
Ստեղծման Ամսաթիվը: 23 Հուլիս 2021
Թարմացման Ամսաթիվը: 1 Հուլիս 2024
Anonim
Следки из остатков пряжи. Полосатые следки спицами.
Տեսանյութ: Следки из остатков пряжи. Полосатые следки спицами.

Բովանդակություն

Վիճակագրության մեջ ծայրահեղ արժեքները արժեքներ են, որոնք կտրուկ տարբերվում են հավաքագրված տվյալների հավաքածուի այլ արժեքներից: Շեղումը կարող է ցույց տալ տվյալների բաշխման կամ չափման սխալների անոմալիաներ, ուստի ծայրահեղությունները հաճախ դուրս են մնում տվյալների շտեմարանից: Տվյալների հավաքածուից հեռացնելով հեռավորությունները ՝ կարող եք գալ անսպասելի կամ ավելի ճշգրիտ եզրակացությունների: Հետևաբար, անհրաժեշտ է կարողանալ հաշվարկել և գնահատել ծայրահեղությունները, որպեսզի ապահովվի վիճակագրության ճիշտ ընկալումը:

Քայլեր

  1. 1 Սովորեք ճանաչել հնարավոր ծայրահեղությունները: Պոտենցիալ ծայրահեղությունները պետք է նույնականացվեն նախքան տվյալների շտեմարանից դուրս բերելը: Արտաքին արժեքները արժեքներ են, որոնք շատ տարբեր են տվյալների հավաքածուի արժեքներից շատերից. այլ կերպ ասած, ծայրահեղ արժեքները դուրս են արժեքների մեծ մասի միտումներից: Սա հեշտ է գտնել արժեքների աղյուսակներում կամ (հատկապես) գրաֆիկներում: Եթե ​​տվյալների հավաքածուի արժեքները գծապատկերված են, ապա ծայրահեղությունները շատ այլ արժեքներից շատ հեռու կլինեն: Եթե, օրինակ, արժեքների մեծ մասն ընկնում է ուղիղ գծի վրա, ապա ծայրամասերը ընկած են նման ուղիղ գծի երկու կողմերում:
    • Օրինակ, հաշվի առեք սենյակի 12 տարբեր օբյեկտների ջերմաստիճանը ներկայացնող տվյալների հավաքածուն: Եթե ​​11 օբյեկտները մոտավորապես 70 աստիճան են, բայց տասներկուերորդ օբյեկտը (հնարավոր է ՝ վառարան) 300 աստիճան է, ապա արժեքներին արագ նայելը կարող է ցույց տալ, որ վառարանը, ամենայն հավանականությամբ, փչում է:
  2. 2 Տվյալները դասավորեք աճման կարգով: Արտաքին ցուցանիշների որոշման առաջին քայլը տվյալների բազայի միջինն է: Այս առաջադրանքը մեծապես պարզեցված է, եթե տվյալների հավաքածուի արժեքները դասավորված են աճման կարգով (ամենափոքրից մինչև ամենամեծ):
    • Շարունակելով վերը նշված օրինակը ՝ հաշվի առեք բազմաթիվ օբյեկտների ջերմաստիճանը ներկայացնող հետևյալ տվյալների հավաքածուն ՝ {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}: Այս հավաքածուն պետք է պատվիրվի հետևյալ կերպ. {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}:
  3. 3 Հաշվարկեք տվյալների բազայի միջինը: Տվյալների տվյալների միջինը տվյալ արժեքի մեջտեղում գտնվող արժեքն է: Եթե ​​տվյալների հավաքածուն պարունակում է տարօրինակ թվով արժեքներ, ապա միջինը այն արժեքն է, որից առաջ և հետո տվյալների բազայում կան նույն քանակի արժեքներ: Բայց եթե տվյալների հավաքածուն պարունակում է զույգ արժեքներ, ապա դուք պետք է գտնեք երկու միջոցների թվաբանական միջին արժեքը: Նկատի ունեցեք, որ հեռավորությունները հաշվարկելիս միջինը սովորաբար կոչվում է Q2, քանի որ այն գտնվում է Q1- ի և Q3- ի միջև ՝ ստորին և վերին քառորդներ, որոնք մենք որոշելու ենք ավելի ուշ:
    • Մի վախեցեք աշխատել տվյալների հավաքածուների հետ, որոնք ունեն զույգ արժեքներ. Երկու միջոցների թվաբանական միջին թիվը կլինի այն թիվը, որը չկա տվյալների հավաքածուում. սա նորմալ է: Բայց եթե երկու միջին արժեքները նույն թիվն են, ապա միջին թվաբանականը հավասար է այս թվին. սա նույնպես իրերի կարգի մեջ է:
    • Վերոնշյալ օրինակում միջին 2 արժեքները 70 և 71 են, ուստի միջինը ((70 + 71) / 2) = 70.5 է:
  4. 4 Հաշվիր ստորին քառորդը: Այս արժեքը, որը կոչվում է Q1, ցածր է, որից գտնվում է տվյալների հավաքածուի արժեքների 25% -ը: Այլ կերպ ասած, դա միջին արժեքների կեսն է: Եթե ​​միջակայքից առաջ տվյալների հավաքածուի զույգ թվեր կան, ապա Q1- ը հաշվարկելու համար անհրաժեշտ է գտնել երկու միջինի թվաբանական միջին արժեքը (սա նման է միջինը հաշվարկելուն):
    • Մեր օրինակում 6 արժեք գտնվում է միջինից և 6 արժեքից առաջ: Սա նշանակում է, որ ստորին քառյակը հաշվարկելու համար մենք պետք է գտնենք միջինից առաջ ընկած վեց արժեքների երկու միջոցների թվաբանական միջին արժեքը: Այստեղ միջին արժեքները 70 և 70 են: Այսպիսով, Q1 = ((70 + 70) / 2) = 70:
  5. 5 Հաշվիր վերին քառորդը: Այս արժեքը, որը կոչվում է Q3, գերազանցում է տվյալների հավաքածուի արժեքների 25% -ը: Q3- ի հաշվարկման գործընթացը նման է Q1- ի հաշվարկման գործընթացին, սակայն այստեղ հաշվի են առնվում միջինից հետո արժեքները:
    • Վերոնշյալ օրինակում միջինից հետո վեցի երկու միջինը 71 և 72. Այսպիսով, Q3 = ((71 + 72) / 2) = 71.5:
  6. 6 Հաշվիր միջքարտային միջակայքը: Հաշվարկելով Q1 և Q3 ՝ անհրաժեշտ է գտնել այդ արժեքների միջև հեռավորությունը: Դա անելու համար Q1- ը հանեք Q3- ից: Միջկառույցային միջակայքի արժեքը չափազանց կարևոր է այն արժեքների սահմանները որոշելու համար, որոնք չափազանց մեծ չեն:
    • Մեր օրինակում Q1 = 70 և Q3 = 71.5: Միջկառույցային միջակայքը 71,5 - 70 = 1,5 է:
    • Նշենք, որ դա վերաբերում է նաև Q1 և Q3 բացասական արժեքներին: Օրինակ, եթե Q1 = -70, ապա միջքարտիլային միջակայքը 71.5 է (-70) = 141.5:
  7. 7 Գտեք տվյալների հավաքածուի արժեքների «ներքին սահմանները»: Արտաքին սահմանները որոշվում են արժեքների վերլուծությամբ `անկախ նրանից, թե դրանք ընկնում են այսպես կոչված« ներքին սահմանների »և« արտաքին սահմանների »շրջանակներում: «Ներքին սահմաններից» դուրս գտնվող արժեքը դասակարգվում է որպես «աննշան ծայրահեղություն», մինչդեռ «արտաքին սահմաններից» դուրս գտնվող արժեքը դասակարգվում է որպես «նշանակալի արտահոսք»: Ներքին սահմանները գտնելու համար հարկավոր է բազմաքառակ միջակայքը բազմապատկել 1,5 -ով; արդյունքը պետք է ավելացվի Q3- ին և հանվի Q1- ից: Գտնված երկու թվերը տվյալների ներքին սահմաններն են:
    • Մեր օրինակում միջկառույցային միջակայքը (71.5 - 70) = 1.5 է: Հետագայում ՝ 1.5 * 1.5 = 2.25: Այս թիվը պետք է գումարվի Q3- ին և հանվի Q1- ից `ներքին սահմանները գտնելու համար.
      • 71,5 + 2,25 = 73,75
      • 70 - 2,25 = 67,75
      • Այսպիսով, ներքին սահմանները 67,75 եւ 73,75 են:
    • Մեր օրինակում միայն վառարանի ջերմաստիճանը `300 աստիճան, գտնվում է այս սահմաններից դուրս և կարող է համարվել աննշան արտանետում: Բայց մի շտապեք եզրակացություններ անել. Մենք պետք է որոշենք, թե արդյոք այս ջերմաստիճանը նշանակալից ծայրահեղ է:
  8. 8 Գտեք տվյալների շտեմարանի «արտաքին սահմանները»: Դա արվում է այնպես, ինչպես ներքին սահմանների դեպքում, բացառությամբ, որ միջքարտիլային միջակայքը 1,5 -ի փոխարեն բազմապատկվում է 3 -ով: Արդյունքը պետք է ավելացվի Q3- ին և հանվի Q1- ից: Գտնված երկու թվերը տվյալների շտեմարանի արտաքին սահմաններն են:
    • Մեր օրինակում բազմակողմ միջակայքը բազմապատկեք 3: 1.5 * 3 = 4.5 -ով: Հաշվեք արտաքին սահմանները.
      • 71,5 + 4,5 = 76
      • 70 - 4,5 = 65,5
      • Այսպիսով, արտաքին սահմանները 65.5 և 76 են:
    • Արտաքին սահմաններից դուրս գտնվող ցանկացած արժեք համարվում է էական արտանետում: Մեր օրինակում 300 աստիճանի վառարանի ջերմաստիճանը համարվում է զգալի պայթյուն:
  9. 9 Օգտագործեք որակական նախահաշիվ `որոշելու համար, թե արդյոք պետք է արտակարգ տվյալները դուրս հանվեն տվյալների շտեմարանից: Վերը նկարագրված մեթոդը թույլ է տալիս որոշել, թե արդյոք որոշ արժեքներ ծայրահեղ են (չնչին կամ էական): Այնուամենայնիվ, սխալ թույլ մի տվեք. Արժեքը, որը դասակարգվում է որպես ծայրահեղ, բացառության դեպքում միայն «թեկնածու» է, այսինքն ՝ պետք չէ այն բացառել: Արտատանման պատճառը հիմնական գործոնն է, որն ազդում է արտաքինից բացառելու որոշման վրա: Որպես կանոն, սխալները (չափումներում, ձայնագրություններում և այլն) առաջացած ծայրահեղությունները բացառվում են: Մյուս կողմից, ոչ լրիվ սխալների, այլ նոր տեղեկատվության կամ տենդենցի հետ կապված ծայրահեղությունները սովորաբար մնում են տվյալների շտեմարանում:
    • Հավասարապես կարևոր է գնահատել ծայրահեղությունների ազդեցությունը տվյալների միջակայքի վրա (դրանք աղավաղում են այն, թե ոչ): Սա հատկապես կարևոր է, երբ դուք եզրակացություններ եք անում տվյալների բազայի միջինից:
    • Մեր օրինակում չափազանց անհավանական է, որ վառարանը տաքանա մինչև 300 աստիճան ջերմաստիճան (եթե հաշվի չառնենք բնական անոմալիաները): Հետևաբար, կարելի է եզրակացնել (բարձր աստիճանի վստահությամբ), որ նման ջերմաստիճանը չափման սխալ է, որը պետք է հանվի տվյալների շտեմարանից: Ավելին, եթե չբացառեք ծայրահեղությունը, տվյալների միջակայքը կլինի (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 աստիճան, բայց եթե բացառեք ծայրամասայինը, միջինը կլինի (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 աստիճան:
      • Սովորաբար ծայրահեղությունները մարդկային սխալի արդյունք են, ուստի պետք է հեռացնել տվյալների հավաքածուներից:
  10. 10 Հասկացեք տվյալների հավաքածուում մնացած (երբեմն) ծայրահեղությունների կարևորությունը: Որոշ ծայրահեղություններ պետք է հանվեն տվյալների շտեմարանից, քանի որ դրանք սխալների և տեխնիկական խնդիրների պատճառով են. այլ ծայրահեղությունները պետք է մնան տվյալների հավաքածուում: Եթե, օրինակ, ծայրահեղությունը սխալի արդյունք չէ և / կամ տալիս է փորձարկվող երևույթի նոր ըմբռնում, ապա այն պետք է թողնել տվյալների բազայում: Գիտական ​​փորձերը հատկապես զգայուն են ծայրահեղությունների նկատմամբ. Սխալմամբ վերացնելով ծայրահեղությունը, դուք կարող եք բաց թողնել ինչ -որ նոր միտում կամ հայտնագործություն:
    • Օրինակ, մենք մշակում ենք նոր դեղամիջոց ՝ ձկնաբուծության մեջ ձկների չափերը մեծացնելու համար: Մենք կօգտագործենք հին տվյալների հավաքածուն ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), բայց այս անգամ յուրաքանչյուր արժեք կներկայացնի ձկան քաշը (գրամներով) փորձարկումից հետո դեղորայքի ընդունումից հետո: Այսինքն ՝ առաջին դեղամիջոցը հանգեցնում է ձկների քաշի ավելացման մինչև 71 գ, երկրորդ դեղամիջոցը ՝ մինչև 70 գ և այլն: Այս իրավիճակում 300 -ը նշանակալի ծայրահեղություն է, բայց մենք չպետք է դա բացառենք. եթե ենթադրենք, որ չափման սխալներ չեն եղել, ապա նման ծայրահեղությունը փորձի մեջ զգալի հաջողություն է: Դեղամիջոցը, որը ձկան քաշը հասցրեց 300 գրամի, շատ ավելի լավ է գործում, քան մյուս դեղամիջոցները. Այսպիսով, 300 -ը տվյալների հավաքածուի ամենակարևոր արժեքն է:

Խորհուրդներ

  • Երբ հայտնաբերվում են ծայրահեղություններ, փորձեք բացատրել դրանց առկայությունը, նախքան դրանք տվյալների հավաքածուից հանելը: Նրանք կարող են ցույց տալ չափման սխալներ կամ բաշխման անոմալիաներ:

Ինչ է պետք

  • Հաշվիչ