ستاتا للباحثين: الجمع بين مجموعات البيانات هذا هو الجزء الثامن من سلسلة ستاتا للباحثين. للحصول على قائمة بالموضوعات التي تتناولها هذه السلسلة، راجع المقدمة. إذا كنت جديدا على ستاتا نوصي بشدة قراءة المقالات في النظام. الجمع بين مجموعتين من البيانات هو مهمة مشتركة لإدارة البيانات، واحدة من السهل جدا القيام بها. ومع ذلك، من السهل جدا أيضا للحصول على خطأ. قبل الجمع بين مجموعات البيانات تأكد من فهم بنية كل من مجموعات البيانات والمنطق من الطريقة التي تجمع بينهما. وإلا يمكنك في نهاية المطاف مع مجموعة البيانات التي تعتقد أنها جاهزة للتحليل، ولكن هو حقا هراء تماما. ستاتا يحاول التأكد من أنك فكرت خلال ما تقوم به، ولكن لا يمكن أن أقول لكم ما يجعل من المنطقي وما لا. ستاتا يعمل دائما مع مجموعة بيانات واحدة في وقت واحد، لذلك سوف تكون دائما الجمع بين مجموعة البيانات في الذاكرة (مجموعة البيانات الرئيسية) مع مجموعة بيانات أخرى على القرص (تسمى مجموعة البيانات باستخدام، لأسباب من شأنها أن تكون واضحة عندما ترى بناء الجملة). إلحاق مجموعات البيانات ستاتا يدعو ذلك إلحاق عند إضافة الملاحظات من استخدام مجموعة البيانات إلى مجموعة البيانات الرئيسية. إلحاق معنى عندما الملاحظات في كل من مجموعات البيانات تمثل نفس النوع من الشيء، ولكن ليس نفس الأشياء. على سبيل المثال، يمكنك إلحاق مجموعة بيانات من الناس من ولاية ويسكونسن إلى مجموعة بيانات من الناس من إلينوي. وينبغي أن يكون لمجموعات البيانات نفس المتغيرات نفسها أو في معظمها، بنفس الأسماء. إذا ظهر متغير فقط في مجموعة بيانات واحدة، سيتم إعطاء ملاحظات من مجموعة البيانات الأخرى قيم مفقودة لهذا المتغير. بناء الجملة هو تنفيذ إلحاق بسيط: تحميل مجموعة البيانات الرئيسية ثم اكتب: إلحاق باستخدام مجموعة البيانات حيث مجموعة البيانات هو اسم مجموعة البيانات التي تريد إلحاق. دمج مجموعات البيانات تستدعي ستاتا دمجها عند تجميع الملاحظات من مجموعتي البيانات. هناك، من الناحية النظرية، أربعة أنواع من الدمج: في دمج واحد إلى واحد، يتم الجمع بين ملاحظة واحدة من مجموعة البيانات الرئيسية مع ملاحظة واحدة من مجموعة البيانات باستخدام. دمج واحد إلى واحد من المنطقي عندما تصف الملاحظات في كل من مجموعات البيانات نفس الأشياء، ولكن لديهم معلومات مختلفة عنهم. على سبيل المثال، يمكنك دمج الإجابات التي قدمها الأشخاص في موجة واحدة من استبيان مع الإجابات التي قدمها الأشخاص أنفسهم في الموجة الثانية من الاستطلاع. في دمج واحد أو أكثر أو واحد إلى واحد، ملاحظة واحدة من مجموعة بيانات واحدة جنبا إلى جنب مع العديد من الملاحظات من جهة أخرى (الفرق بين واحد إلى كثير والكثير إلى واحد ما إذا كان مجموعة البيانات الرئيسية لديه كوتمانيكوت أو باستخدام مجموعة البيانات). وتكون هذه الاندماجات منطقية عندما يكون لديك بيانات تراتبية، وتحتوي مجموعة بيانات واحدة على معلومات عن وحدات المستوى الأول بينما يحتوي الآخر على معلومات عن الوحدات من المستوى الثاني. علی سبیل المثال، یمکنك دمج معلومات حول الأسر التي لدیك معلومات عن الأفراد الذین یعیشون في تلك الأسر. من حيث المبدأ هناك أيضا العديد إلى العديد من الاندماجات. ونادرا ما يكون ذلك مفيدا من الناحية العملية. إذا وجدت نفسك تريد أن تفعل العديد إلى الكثير دمج، يجب عليك إعادة التفكير في ما تفعله. في كثير من الأحيان ما عليك حقا القيام به هو تحديد وتصحيح المعرفات المكررة، ومن ثم دمج الخاص بك وسوف تعمل على واحد إلى واحد أو واحد لكثير. في جميع الاندماجات مناقشة جيدة، يجمع ستاتا بين الملاحظات التي لها نفس القيمة لمتغير رئيسي، عادة معرف. يمكنك أيضا أن تتطابق استنادا إلى متغيرات متعددة (على سبيل المثال، الجمع بين البيانات لنفس الحالة والسنة). في دمج واحد أو أكثر أو واحد إلى واحد، هو المعرف لوحدات المستوى الثاني الذي هو المتغير الرئيسي (على سبيل المثال الرقم التعريفي للأسرة، وليس معرف الفرد). من المهم جدا أن يكون للمتغير الرئيسي نفس الشكل في كل من مجموعات البيانات. وإذا لم تتطابق الملاحظة في مجموعة بيانات واحدة مع ملاحظة في الطرف الآخر، فإنها ستعطى قيم مفقودة للمتغيرات من مجموعة البيانات الأخرى. وبما أن جدوى مشروع بحثي غالبا ما تعتمد على عدد الملاحظات التي تندمج فعليا (على سبيل المثال كم من الناس من موجة واحدة من المسح يمكن العثور عليها في الموجة الثانية) ستاتا يمنحك أدوات لمعرفة عدد الملاحظات التي تم دمجها فعليا وفحص تلك التي لم أكن. إذا كان متغير موجود في كل من مجموعات البيانات، سيتم الاحتفاظ القيم من مجموعة البيانات الرئيسية وسيتم تجاهل القيم من مجموعة البيانات باستخدام. أحيانا هذا هو ما تريد، ولكن من المرجح أن يكون خطأ. بشكل عام يجب عليك إعداد البيانات الخاصة بك بحيث تكون المتغيرات الوحيدة الملفات التي سيتم دمجها مشتركة في المتغيرات الرئيسية. بناء الجملة للدمج هو: كيفارس نوع الدمج باستخدام مجموعة البيانات يجب أن يكون النوع 1: 1 (واحد إلى واحد)، 1: m (واحد إلى كثير)، م: 1 (العديد إلى واحد) أو م: م (العديد للكثير) كيفارس هو المتغير الرئيسي أو المتغيرات ومجموعة البيانات هو اسم مجموعة البيانات التي تريد دمجها. مثال على الجمع بين مجموعات البيانات وتشمل الأمثلة العديد من الملفات التي تحتوي على معلومات الطالب خيالية من 2007. score. dta يحتوي على عشرات الطلاب على اختبار موحد، demographicics. dta يحتوي على معلومات سكانية عنهم، و teachers. dta يحتوي على معلومات عن المعلمين. خذ لحظة للنظر في كل ملف، ثم بدء ملف لا يحمل عشرات. في مجموعة البيانات هذه، تمثل كل ملاحظة الطالب. تصفح وسترى أن لديك معرف الطالب (إد)، معرف المعلم (المعلم) ودرجة لكل منهما. مهمتك الأولى هي إضافة في المعلومات السكانية. في ديمغرافيك. كل ملاحظة تمثل أيضا طالبا، مع المتغيرات كونها الهوية والعرق. وبالتالي هذا هو وظيفة لدمج واحد إلى واحد والمتغير الرئيسي هو معرف. دمج معرف 1: 1 باستخدام الخصائص الديمغرافية ستاتا سيتم الإبلاغ عن تطابق جميع الملاحظات 60. فإنه سيتم أيضا إنشاء متغير يسمى دمج. واحد في الدمج يعني ملاحظة جاءت فقط من البيانات الرئيسية مجموعة اثنين يعني أنه جاء فقط من استخدام مجموعة البيانات وثلاثة يعني الملاحظة بنجاح مطابقة، وبالتالي جاءت من كليهما. في هذه الحالة نرى أن جميع الملاحظات مطابقة وبالتالي دمجها يساوي ثلاثة، لذلك ثيريس لا حاجة للحفاظ على المتغير. في الواقع نحن بحاجة إلى إسقاطه (أو إعادة تسميته) قبل القيام بأي مزيد من الدمج: التالي إضافة معلومات عن المعلمين. في كل معلم، كل ملاحظة تمثل معلم، ولكل معلم العديد من الطلاب. وهذا يجعل من دمج واحد إلى واحد (لأن العديد من الطلاب هم حاليا في الذاكرة والمعلم واحد هو في استخدام مجموعة البيانات). المتغير الأساسي ليس معرف. منذ ذلك يشير إلى الطلاب، ولكن المعلم: دمج م: 1 المعلم باستخدام المعلمين مرة أخرى، جميع الملاحظات 60 دمجها بشكل صحيح، حتى تتمكن من إسقاط الاندماج. الجمع بين البيانات لوحة الآن نفترض كنت تتبع هؤلاء الطلاب لعدة سنوات. يحتوي على مجموعة البيانات panel2007.dta نسخة مبسطة من مجموعة البيانات هذه: معرف فقط والنتيجة. مجموعة البيانات 2008.dta لديها نفس المتغيرات لسنة مختلفة. كيف يمكنك الجمع بينهما تعتمد الطريقة الصحيحة لدمجها على بنية البيانات التي تريدها. هذه هي البيانات الهرمية حيث وحدة المستوى الثاني هو طالب وحدة مستوى واحد هو بيانات الطلاب لسنة معينة. وبالتالي يمكن تمثيله في شكل واسع (ملاحظة واحدة لكل طالب)، أو في شكل طويل (ملاحظة واحدة لكل طالب في السنة). لوضع البيانات في شكل طويل ببساطة كومة مجموعتي البيانات باستخدام إلحاق. ومع ذلك، سوف تحتاج إلى معرفة أي سنة تمثل كل ملاحظة. للقيام بذلك، إضافة متغير سنة إلى كل من مجموعة البيانات، مع قيمة 2007 لبيانات 2007 والقيمة 2008 لبيانات 2008. يمكنك القيام بذلك مع الملف التالي: مسح كل مجموعة أكثر من التقاط سجل سجل إغلاق باستخدام combine1.log، واستبدال استخدام panel2007 جين year2007 حفظ panel2007append استخدام panel2008 جين year2008 إلحاق باستخدام panel2007append حفظ أبندداتا، واستبدال لوضع البيانات في شكل واسع، القيام دمج واحد الى واحد مع معرف كمتغير رئيسي. ولكن أولا تحتاج إلى تغيير أسماء المتغيرات. أذكر أنه في شكل واسع، هو أسماء المتغيرات التي اقول لكم وحدة مستوى واحد كنت تتحدث عنه. لذلك بدلا من النتيجة. تحتاج score2007 و score2008. واضح كل مجموعة أكثر من تسجيل التقاط سجل إغلاق باستخدام combine2.log، واستبدال استخدام panel2007 إعادة تسمية النتيجة score2007 حفظ keyboard2007merge استخدام panel2008 إعادة تسمية النتيجة score2008 دمج 1: 1 إد باستخدام panel2007merge حفظ ميرجيداتا، واستبدال هذه المرة ستلاحظ أن ملاحظة واحدة لا تتطابق. يمكنك معرفة أي واحد عن طريق كتابة: طالب رقم 55 لم يكن في panel2008 وبالتالي لا يمكن أن تكون مطابقة. ونتيجة لذلك ليس لدينا أي فكرة عما كان عليه أو لها اختبار النتيجة في عام 2008. للأسف هذا أمر شائع جدا 8212students الخروج من المناطق التعليمية بين الاختبارات في كل وقت. إذا كان جدول أعمال البحث بأكمله يعتمد على وجود كل من درجات الاختبار، قد تحتاج إلى إسقاط الملاحظات التي لا توجد في كل من مجموعات البيانات. يمكنك القيام بذلك عند هذه النقطة عن طريق إضافة: إسقاط إذا merge3 يمكنك أيضا تحديد الملاحظات التي ينبغي الاحتفاظ بها مباشرة في الأمر دمج: دمج 1: 1 معرف باستخدام panel2007merge، والحفاظ على (تطابق) إبقاء (تطابق) يعني فقط الحفاظ على الملاحظات التي تطابق . البدائل هي سيد واستخدامها. ويمكنك إدراج أكثر من واحد. على سبيل المثال، للحفاظ على الملاحظات التي تطابق والملاحظات التي تأتي فقط من مجموعة البيانات الرئيسية، في حين رمي الملاحظات التي تأتي فقط من استخدام مجموعة البيانات، يقول يقول إبقاء (مباراة رئيسية). المشاكل الشائعة مع ميرجيس سوف تكشف عن جميع أنواع المشاكل مع مجموعة البيانات الخاصة بك (وإذا لم تكن دمج الثابتة سوف أعرض جديدة). وهنا اثنين شائعين وكيفية إصلاحها: المتغيرات الرئيسية المخزنة في أشكال مختلفة في حين ستاتا سوف تتطابق بسعادة أنواع مختلفة من الأرقام (إنتس والعوامات، على سبيل المثال) لا يمكن أن تتطابق الأرقام والسلاسل. يمكن تخزين المعرفات إما (طالما أنك تختار نوع رقمي يحتوي على دقة كافية 8212 انظر التعامل مع البيانات) وليس من غير المألوف أن تجد مجموعات البيانات الخاصة بك تخزن المعرف بطرق مختلفة. في هذه الحالة عادة ما يكون من الأفضل تحويل الأرقام إلى السلاسل: جين إدسترينغسترينغ (إد) إسقاط إد إعادة تسمية إدسترينغ إد تأخذ الدالة سترينغ () عددا وتحولها إلى سلسلة. يمكنك إعطائها وسيطة ثانية تحتوي على التنسيق الذي يجب أن يكون الرقم كوتوريتكوت إذا لزم الأمر. المعرفات المكررة إذا حاولت القيام بعملية دمج وتحصل على رسالة خطأ مثل معرف كوتفاريابل لا تعريف فريد الملاحظات في البيانات الرئيسيةكوت وهذا يعني أن لديك معرفات مكررة في مجموعة البيانات المذكورة. يجب إصلاح هذه المشكلة قبل المتابعة. لا مجرد تغيير نوع الدمج لمجموعة البيانات ذات الصلة من كوتونيكوت إلى كومانيكوت أملا في جعل رسالة الخطأ تذهب بعيدا 8212 مجموعة البيانات الناتجة لن يكون منطقيا الملاحظات المتأثرة. أحد المصادر المحتملة للنسخ المكررة هو خطأ مستدير بسبب حفظ المعرفات في نوع متغير غير مناسب. في هذه الحالة ستحتاج إلى العودة إلى البيانات الأصلية والتأكد من تخزين المعرفات كنوع لن يتطرق إليها، مثل طويلة أو مزدوجة أو سلسلة. لاحظ أنه لأغراض الدمج، يتم التعامل مع القيم المفقودة تماما مثل أي قيمة أخرى. إذا كان لديك ملاحظات مع المعرفات المفقودة ستاتا سيعتبرها كنسخ مكررة. ربما عليك إسقاطها قبل الدمج. ولكن معظم معرفات الوقت المكررة تنتج عن أخطاء في البيانات. عليك أن تفعل شيئا عنهم قبل أن تتمكن من تنفيذ الدمج الخاص بك. بدء ملف القيام بتحميل مجموعة البيانات ميرجيرور. تحتوي مجموعة البيانات هذه على الطلاب، ولكن بعضها يحتوي على معرفات مكررة تحتاج إلى إصلاح. يمكنك أن ترى كم من المشاكل لديك مع تقرير مكررة: معرف تقرير مكررة هذا يخبرك كم عدد الملاحظات لها نفس القيمة من المعرف. الإخراج يخبرك أنه لا يوجد معرف يظهر أكثر من مرتين، ولكن اثني عشر ملاحظات لها معرفات مكررة. لمزيد من البحث، قم بإنشاء متغير يخبرك بعدد النسخ الموجودة لكل معرف: بيسورت إد: جينيس كوبيسن ثم يمكنك إلقاء نظرة على ملاحظات المشكلة فقط مع: تصفح إذا copygt1 بالنسبة للملاحظات ذات المعرف تساوي 9 و 26 و 33، والملاحظتان مع نفس إد متطابقة. وهذا يشير إلى نفس الطالب دخلت مرتين ويمكنك إصلاح المشكلة ببساطة عن طريق إسقاط الملاحظات الإضافية. قم بإجراء ذلك مع: لاحظ أنه على عكس الأمر "تقرير التكرار" الذي قمت بتشغيله في وقت سابق، لا يحتوي هذا الأمر فارليست. وهذا يعني أنه يسقط ملاحظات مكررة فقط إذا كان لديهم نفس القيمة لجميع المتغيرات، وليس فقط معرف. يمكنك أن تعطيه فارليست لذلك يسقط الملاحظات إذا فقط تلك المتغيرات لها نفس القيم، ولكن كن حذرا جدا القيام بذلك. في هذه المرحلة من المشاكل المعقدة قد ترغب في إسقاط متغير النسخ التي قمت بإنشائها في وقت سابق وإعادة إنشائها حتى تصفح إذا نسخ ggt1 لن تظهر الملاحظات التي قمت بإصلاحها بالفعل، ولكن ثيريس لا حاجة في هذه المجموعة البيانات. وفيما يتعلق بالملاحظات ذات المعرف المساوي 64 و 74 و 94، فإن المتغيرات الأخرى تبين أن الملاحظات ذات المعرف نفسه ليست نفس الشخص. هذا هو مشكلة رئيسية لدمج: كنت غير قادر على التأكد من أن كوتستودنت 64quot في هذه المجموعة البيانات يذهب مع كوتوتودنت 64quot في مجموعة بيانات افتراضية أخرى. قد تساعد إضافة المزيد من المتغيرات. على سبيل المثال، في هذه الحالة، فإن الدمج بواسطة كل من المعرف والعرق يسمح لك بتطابق الموضوعين بشكل صحيح مع معرف يساوي 94. الدمج بواسطة المعرف. سباق. والصف تسمح لك لمطابقة بشكل صحيح الموضوعات مع معرف يساوي 74. فقط نضع في اعتبارنا أنه إذا كانت مجموعة البيانات التي تريد دمج مع هذا واحد للسنة الدراسية اللاحقة كما في المثال السابق لدينا تضطر إلى طرح واحد من متغير الصف الأول. إذا اخترت الذهاب إلى هذا المسار، فقم بإعادة إنشاء متغير النسخ باستخدام مجموعة كاملة من المتغيرات التي تخطط للتطابق معها في البادئة ومعرفة عدد التكرارات المتبقية. لا شيء سيساعد مع الملاحظات اثنين مع معرف يساوي 64، وفي مجموعة بيانات أكبر أقل احتمالا أن مطابقة من قبل عدد قليل من المتغيرات أكثر سوف تسمح لك لتحديد المواضيع بشكل فريد. في مثل هذه الحالات ستحتاج على الأرجح لإسقاط جميع الملاحظات التي لا يمكن التعرف بشكل فريد، لأنك لا يمكن أن تتطابق بشكل موثوق أي منهم. يمكنك القيام بذلك مع: قطرة إذا copygt1 وهناك طريقة بديلة لدمج مجموعات البيانات في شكل واسع هو إلحاق أولا ثم إعادة تشكيل. الجمع بين لوحة2007 و panel2008 في شكل واسع باستخدام هذه الطريقة. (الحل) إذا كنت الجمع بين عامين من البيانات في شكل طويل باستخدام إلحاق. كيف يمكنك العثور على الملاحظة التي لا تظهر في عام 2008 (الحل) الجمع بين error2007.dta و error2008.dta عن طريق دمجه في شكل واسع، وتحديد المشاكل التي تجدها. ثم إلحاق مجموعتي البيانات ومحاولة تحديد المشاكل نفسها. (الحل) آخر مراجعة: 12292015 الخطوة 2 - الجمع بين مجموعات بيانات متعددة في واحدة في كثير من الحالات، تأتي البيانات اللازمة للتحليلات الإحصائية من مصادر مختلفة. على سبيل المثال، إذا كنت ترغب في تحليل النمو الدولي، قد تجد مؤشرات اقتصادية في مجموعة بيانات للبنك الدولي، والمؤشرات السياسية في مراكز التفكير مثل دار الحرية، والبيانات المناخية في مجموعة بيانات أخرى. حالة أخرى عندما يكون لديك مجموعة بيانات واحدة والتي تنقسم إلى ملفات متعددة. في هذا المنصب سأحاول أن أتحدث قليلا عن كيفية جعلها تعمل. أنواع مجموعات البيانات مجموعات هناك في الواقع نوعان رئيسيان من التركيبات: تركيبة عمودية - تريد القيام بذلك عندما تريد إضافة ملاحظات من ملف واحد إلى ملف آخر. على سبيل المثال، إذا كنت تعمل على مشروع إحصاءات رياضية وكان لديك بيانات لأداء اللاعبين في أربعة ملفات منفصلة، واحدة لكل سنة بين 2001 و 2004. وهناك احتمال آخر هو أن يتم فصل البيانات وفقا لبطولات مختلفة، والجماعات، وما إلى ذلك. طالما أن المتغيرات في الملفات هي نفسها والشيء الوحيد الذي عليك القيام به هو إضافة الملاحظات، وهذا هو مزيج الرأسي. الأمر في ستاتا سنستخدم هو إلحاق. سنستكشف هذا الأمر لاحقا. مجموعة أفقية - هذا هو نوع من المجموعات التي تريد إضافة المتغيرات، وليس الملاحظات. تظهر الملاحظات في كل من الملفات (على الأقل معظمها)، ولكن في كل ملف هناك معلومات مختلفة عنها. على سبيل المثال، إذا كان التعامل مع طلاب المدارس الثانوية ولدينا ملف واحد مع المعلومات الشخصية والدرجات، وملف آخر مع عشرات سات فقط. إذا كان لدينا متغير تحديد في كل من الملفات (على سبيل المثال رقم الضمان الاجتماعي)، ونحن يمكن تعيين كل طالب هيهر سات النتيجة. هذا المثال هو مطابقة رأس برأس. هناك ثلاثة أنواع من المباريات من هذا النوع: واحد الى واحد مطابقة. إذا كان متغير تحديد الذي يظهر في الملفات فريدة من نوعها في كل من الملفات، ثم تطابق واحد إلى واحد. يعني الفريد أن لكل قيمة من هذا المتغير، هناك ملاحظة واحدة فقط تحتوي عليه. وفي الشكل أدناه، فإن البلد هو المتغير المحدد. وفي كلتا مجموعتي البيانات، ليس لدى كل بلد سوى ملاحظة واحدة. واحد إلى العديد مطابقة. إذا كان متغير التحديد فريدا في ملف واحد، ولكن ليس فريدا في الآخر، ثم مطابقة واحد إلى العديد. هذا أمر شائع جدا عندما يكون لديك مجموعات من الملاحظات في ملف واحد (الملف الذي يحتوي على متغير تحديد غير فريد)، ومعلومات عن كل مجموعة في ملف آخر (الملف الآخر). الشكل التالي سيجعل من أوضح: كما ترون، يمكن للمرء أن مجموعة الأفراد إلى بيتس. المتغير تحديد الأسرة (فاميد) هو شائع في كل من الملفات. انها ليست فريدة من نوعها في ملف الأفراد، ولكنها فريدة من نوعها في ملف الأسر. وهذا يمكن ستاتا من تعيين نفس القيمة، لكل من المتغيرات الأسر، لجميع أفراد الأسرة. لاحظ أنه على الرغم من أن لدينا معرف فريد للأفراد (إنديفيد)، فإنه لا صلة لها بهذا الدمج من الملفات. العديد إلى العديد من مطابقة. هذا أمر نادر جدا. وهذا أيضا إشكالية، لأنه لا توجد قاعدة لا لبس فيها لتخصيص القيم من الملاحظات في ملف واحد إلى الملاحظات في الملف الآخر. أنا لن تفاصيل عن هذه المطابقة كثيرا. هناك ثلاثة أوامر يجب أن تعرف إذا كنت ترغب في الجمع بين مجموعات البيانات: إلحاق. دمج و جوينبي. كل ثلاثة منهم الجمع بين مجموعة البيانات الموجودة حاليا في الذاكرة مع البيانات من ملف تحدده. سنقوم بتسمية البيانات في الذاكرة البيانات الرئيسية والبيانات إلى الجمع بين الملف المحدد باستخدام البيانات. سيكون من الواضح لماذا نستخدم كلمة استخدام هنا. الأمر أبند يفعل ما أسمينا الجمع الرأسي. ويضيف ملاحظات. تركيبها، في شكل بسيط (للخيارات غير المحددة في هذا البرنامج التعليمي، يمكنك دائما اكتب مساعدة إلحاق في سطر الأوامر من أجل استكشاف المزيد عن الأمر)، يذهب مثل هذا: إلحاق باستخدام إلتفيلناميغت إلحاق باستخدام C: moreobservations. dta إلحاق باستخدام C: موروبسيرفاتيونس (وهذا ما يعادل) وهذا إضافة الملاحظات من ملف C: moreobservations. dta إلى البيانات في الذاكرة. في حالة عدم تحديد أي تمديد (أي لا. dta في نهاية اسم الملف)، يفترض ستاتا. dta، بحيث يمكنك حذفه. الآن كنت أفهم لماذا ندعو البيانات في C: moreobservations. dta استخدام البيانات. ماذا يحدث إذا كان لديك متغيرات في البيانات الرئيسية التي لا وجود لها في استخدام البيانات سيتم تعيين الملاحظات من استخدام البيانات القيم المفقودة في تلك المتغيرات. إذا كان هناك متغيرات إضافية في استخدام البيانات التي لا تظهر في البيانات الرئيسية، الملاحظات من البيانات الرئيسية سيكون لها قيم مفقودة فيها. تلميح . قبل إلحاقك، قد تحتاج إلى التأكد من أنك تعرف الملف المصدر لكل ملاحظات. على سبيل المثال، في حالة إلحاق بيانات 2008 ببيانات 2007 الموجودة حاليا في الذاكرة، قد تحتاج إلى التأكد من أن لديك سنة المتغير في كل مجموعة من مجموعات البيانات قبل دمج استخدام البيانات. للجمع الأفقي من مجموعات البيانات سوف تحتاج إما دمج أو الانضمام. الفرق بينهما هو الطريقة التي يستخدمونها من أجل القيام بعملية الدمج، ولكن في واحد إلى واحد أو واحد إلى العديد من الدمج، أنها تعطي تقريبا نفس الوظيفة. سنبدأ بأمر الدمج. بناء الجملة، في أبسط أشكاله، هو: دمج متغير (متغير) متغير غ باستخدام لتفيلناميغت (1) استخدام D: الجغرافيا، واضحة يفترض D: geography. dta دمج البلد باستخدام D: الاقتصاد يفترض D: economy. dta (2) دمج فاميد باستخدام K: homes. dta (3) دمج سنة الولاية باستخدام K: USAdatapreceration. dta في المثال الأول، ستاتا أولا بتحميل الملاحظات من ملف يسمى الجغرافيا ومن ثم يطابقها لملاحظات في ملف الاقتصاد. dta. وهذا سوف يفعل ما يظهر في القسم واحد إلى واحد أعلاه. ملاحظة: ما يأتي بعد مزدوجة مائلة إلى الأمام () سيتم تجاهلها من قبل ستاتا. تستخدم في جعل التعليمات البرمجية أوضح للقارئ البشري في المثال الثاني، افترض أن مجموعة البيانات الفردية بالفعل في الذاكرة. حاولت أن تفعل ما هو الرقم في واحد إلى العديد من القسم أعلاه يظهر. لاحظ أنه لا يوجد فرق في بناء الجملة. والفرق الوحيد هو في بنية الملفات التي تعمل عليها. في المثال الثالث، أردت أن تظهر يمكنك استخدام أكثر من متغير تحديد واحد. في حالة مجموعة فريدة من المتغيرات هي فريدة من نوعها (وتريد تحديد الملاحظات بشكل فريد)، يمكنك تحديد كل منهما. في هذا المثال، لنفرض أن لديك بيانات على أساس سنة الولاية (وهذا ما يسمى بيانات اللوحة، لأن لديك نفس الموضوعات تظهر مرة أخرى في حالات مختلفة) - دعونا نقول بيانات حوادث السيارات (عدد الحوادث والإصابات، وما إلى ذلك) وتحتاج إلى إضافة بيانات حول الظروف الجوية في ذلك العام، تحتاج إلى أن تقول ستاتا لجعل المباراة بين مجموعات البيانات وفقا لكل من الدولة والسنة. مهم . الأمر دمج يتطلب أن يتم فرز كل من ماستر واستخدام البيانات من خلال متغيرات تحديد. إذا لم يتم فرز البيانات الرئيسية، قم بتشغيل متغير لوتيدنتينغ (ق) غ قبل أمر الدمج. إذا لم يتم فرز بيانات استخدام، فتحه أولا (استخدام لتفيلناميغت، واضحة)، ثم تشغيل الأمر نوع، ثم حفظه (حفظ لتفيلناميغت، استبدال)، فتح البيانات الرئيسية وتشغيل الأمر دمج. هيريس مثال على ذلك: استخدام D: الاقتصاد، بلد فرز واضح حفظ D: الاقتصاد، واستبدال استخدام D: الجغرافيا، بلد واضح بلد دمج البلد باستخدام D: الاقتصاد 1) منذ قمت بحفظ D: economy. dta في السطر الثالث، لن تحتاج إلى فتح D: economy. dta وفرزها مرة أخرى في المستقبل يدير. 2) إذا كنت تقوم بإجراء تطابق واحد (أي إذا كان المتغير (المتغيرات) فريدا في كلتا المجموعتين)، يمكنك تشغيل الأمر دمج مع خيار الفرز. وسوف تقوم تلقائيا بفرز مجموعات البيانات ضمن أمر الدمج. لن يعمل خيار الفرز إذا لم تكن متغيرات التحديد فريدة. يقوم الأمر دمج تلقائيا بإنشاء متغير يسمى دمج. الذي يحتوي على معلومات بشأن وجود الملاحظات في كل من مجموعتي البيانات. في الحالات البسيطة التي ذكرتها أعلاه، سوف تحتوي على كل من الملاحظات، واحدة من القيم التالية: 1 الملاحظة (قيم المتغير (القيم)) ظهرت فقط في البيانات الرئيسية 2 الملاحظة (المتغير المحدد ( s)) ظهرت فقط في استخدام البيانات 3 ظهرت الملاحظة (قيم المتغير (القيم)) في كلتا مجموعتي البيانات يعود الأمر لك لتحديد ما تريد القيام به مع كل حالة من الحالات. في بعض المشاريع سوف لا تريد أوبسيرفاتيوس مع القيمة 2 في متغير الدمج. على سبيل المثال، خذ المثال 2 أعلاه. إذا كان لديك بيانات الأسر في استخدام البيانات، ولكن اهتمامك هو الأفراد (في البيانات الرئيسية)، لا تحتاج الملاحظات مع البيانات المنزلية ولكن من دون الأفراد التي ترتبط به. إذا كنت ترغب في التخلص منه، يمكنك إما اكتب إسقاط إذا دمج 2 بعد الأمر دمج أو حتى أفضل تشغيل الأمر دمج مع الخيار نوكيب. هذا هو: دمج فاميد باستخدام K: homes. dta، نوكيب يمكنك أيضا أن تقرر أن الملاحظات في البيانات الرئيسية التي ليس لها ملاحظات المقابلة في استخدام البيانات هي غير ذات صلة لبحثك. في هذه الحالة، لا يوجد خيار خاص لأمر الدمج. لذلك تحتاج إلى إضافة إسقاط الأمر إذا دمج 1 بعد الأمر دمج. تحديث واستبدال ماذا يحدث إذا كان لديك بعض التداخل بين المتغيرات في الملفات ويقول، عند دمج البيانات من كتاب حقائق العالم سيا والبنك الدولي، قد يكون لديك الدخل القومي الإجمالي في كل من مجموعات البيانات. إذا قمت بتحديد أي منها. ستاتا إبقاء القيم التي كانت في البيانات الرئيسية (في الذاكرة). إذا قمت بتحديد تحديث خيارات استبدال (استبدال غير ممكن تحديد دون تحديث)، ستاتا سوف تأخذ بدلا من ذلك، القيم الموجودة في استخدام البيانات ووضعها بدلا من القيم البيانات الرئيسية. إذا قمت فقط اكتب خيار التحديث (بدون استبدال)، ومع ذلك، ستاتا وضع القيم استخدام البيانات فقط في الملاحظات حيث قيم البيانات الرئيسية مفقودة. لذلك في حال كان لديك نفس المتغير ولكن قيم مختلفة، لا تستخدم أي خيار عندما كنت تعتقد أن البيانات الرئيسية هي أكثر موثوقية. استخدم خيارات استبدال التحديث إذا كنت تعتقد أن استخدام البيانات أكثر موثوقية. إذا كانت موثوقة على حد سواء، استخدام التحديث فقط. إذا قمت بتحديد خيار التحديث، فإن الدمج يحتوي على 5 قيم ممكنة: 1 الملاحظة (قيم المتغير (القيم)) ظهرت فقط في البيانات الرئيسية 2 الملاحظة (قيم المتغير (القيم) المحددة ظهرت فقط في استخدام البيانات 3 تظهر الملاحظة (قيم المتغير (القيم) المحددة في كل من مجموعتي البيانات والقيم هي نفسها في كل من الملاحظة 4 (قيم المتغير (القيم) المحددة التي ظهرت في كلتا مجموعتي البيانات والقيمة في البيانات الرئيسية مفقودة. 5 تظهر الملاحظة (قيم المتغير (القيم) المحددة في كلتا المجموعتين ولكن القيم في مجموعات البيانات ليست مفقودة وليست هي نفسها. دمج البلد باستخدام D: الاقتصاد، تحديث استبدال معرف دمج باستخدام K: ثانية، التحديث إذا كنت تريد فقط بعض المتغيرات المراد دمجها، بدلا من كل منهم، يمكنك تحديد إبقاء (). دمج البلد العام باستخدام F: intlhealthstats. dta، والحفاظ على (الولادة معدل الموت) فريدة من نوعها، أونيكماستر، ومثيرة والفرز من أجل التأكد من واحد إلى واحد أو واحد إلى العديد من المباريات هي محددة حقا لا لبس فيها، يمكنك التأكد من تحديد المتغيرات هي فريدة من نوعها في إما البيانات الرئيسية (أونيقماستر)، استخدام البيانات (غير مقنعة) أو كل من مجموعات البيانات (فريدة من نوعها). فمن المستحسن حقا لتحديد لهم، على الرغم من أنها لن تغير وظيفة. المساهمة الرئيسية من هذه الخيارات هو جعل ستاتا طباعة خطأ والخروج إذا ما كنت تعتقد هي فريدة من نوعها ليست فريدة من نوعها حقا. خيار التصنيف يمكن أن يجعل الأمر دمج ترتيب مجموعات البيانات من تلقاء نفسها، ولكن من الممكن فقط إذا كنت تشغيل مباراة واحد الى واحد (وبعبارة أخرى، نوع ينطوي على فريدة من نوعها). يمكنك دمج أكثر من ملف واحد في أمر واحد. بدلا من تحديد اسم ملف واحد بعد استخدام. يمكنك إضافة المزيد من أسماء الملفات. ما لم يتم تحديد الخيار نوسوماري، سيقوم الأمر بإنشاء merge1، دمج 2. مارجين التي تكون فيها قيمة المشاهدات في كل متغير من مارجك هي 1 إذا كانت مجموعة البيانات k-ث لها هذه الملاحظات و 0 خلاف ذلك. وسيظل متغير الدمج موجودا، ولكن الآن القيمة 3 في ذلك يعني أن الملاحظات ظهرت في واحدة على الأقل من مجموعات البيانات. شخصيا، أنا أفضل تشغيل الأمر دمج بشكل متكرر وإضافة مجموعة بيانات واحدة في وقت واحد. فإنه يتطلب إسقاط متغير الدمج في كل مرة، وقد يستغرق وقتا أطول، ولكن يمكنني تقديم تقرير أفضل والتعامل مع نتائج دمج. الأمر جوينبي لا يكاد يعمل نفس الوظيفة دمج، ولكن العمل الداخلي هو مختلف، لذلك قد تكون هناك اختلافات من حيث وقت المعالجة. وينشأ الاختلاف الرئيسي عندما كنت تتعامل مع العديد من المباريات إلى العديد، ولكن يمكن استخدامها لمباريات واحد إلى واحد واحد إلى العديد من المباريات أيضا. بناء الجملة البسيط هو: متغير جوينبي المتغير (غ) باستخدام لوتفيلنامغت البلد المنتسب باستخدام D: إكونومي على عكس الدمج، الافتراضي هو جوينبي إسقاط جميع الملاحظات التي لا تظهر في كل من مجموعات البيانات. من أجل الحفاظ على تلك الملاحظات، تحتاج إلى استخدام الخيار لا مثيل لها (). هذا الخيار يحتوي على أربعة أشكال مختلفة: لا مثيل لها (لا شيء) - حافظ على أي من الملاحظات لا مثيل لها (وهذا هو الافتراضي) لا مثيل لها (سيد) - حافظ على الملاحظات في البيانات الرئيسية التي لا تطابق في استخدام البيانات (ولكن ليس بالعكس) لا مثيل لها (باستخدام ) - حافظ على الملاحظات من استخدام البيانات التي لا تطابق في البيانات الرئيسية (ولكن ليس العكس) لا مثيل لها (على حد سواء) - حافظ على جميع الملاحظات لا مثيل لها، من كل من استخدام والبيانات الرئيسية لذلك إذا كنت تريد أن تفعل الشيء نفسه الذي تم في المثال الأول من أمر الدمج، استخدم الأمر كومانغ التالي: البلد المنتسب باستخدام D: إكونومي، لا مثيل له (كليهما) ليست هناك حاجة إلى تصنيف مجموعات البيانات حسب المتغير (المتغيرات) التعريفية، الذي يعد ميزة على الدمج. خيارات التحديث والاستبدال متاحة للانضمام أيضا. كما قلت، مزيد من التفاصيل مع: على الرغم من أنني لم أكن في أمس الحاجة إليها، وهذا هو المكان دمج و جوينبي سوف تعطيك نتائج مختلفة تماما. والسؤال هو كيفية مطابقة القيم من مجموعة بيانات إلى أخرى. أعتقد أن أفضل طريقة لشرح الفرق بين الأوامر هي بيانيا: الآن يمكنك فهم معنى الجملة التي تصف الأمر جوينبي في مرجع المساعدة: تشكيل جميع تركيبات الزوجية داخل المجموعات. الاستنتاج إذا كنت ترغب في إضافة ملاحظات: إلحاق. إذا كنت ترغب في إضافة المتغيرات: دمج أو جوينبي كما هو الحال دائما، قبل أن تحتفل، تأكد من أنك حصلت على مجموعة من الملفات الحق من خلال النظر في الوسائل، التهم، والحد الأدنى والقيم القصوى (الأمر سوم) والجداول (الأمر علامة التبويب). ألق نظرة خاصة على متغير الدمج. ابحث عن القيم المفقودة أو غيرها من الملاحظات الخارجية. إذا كان لديك الكثير منهم، قد ارتكبت خطأ على طول الطريق. تصفح البيانات قليلا. اطلع على دمج البيانات بشكل صحيح. لا تنسى حفظ الملف (أي إذا كنت لا تريد إعادة تشغيل الأمر دمج لاحقا). ستاتامان، أنت رائعة. يا ستامان أفعل دمج مجموعة من الملفات، والتي يتم فرزها بالفعل من قبل بيرسونيد إم باستخدام. هيريز الأمر والإخراج: دمج بيرسونيد باستخدام IDS7GIND. DTA IDS7BIND. DTA IDS19CIND. DTA IDS7FIND. DTA IDS9IND. DTA IDS7HIND. DTA idS3IND. DTA، دمج (إند) (التسمية تيمونيت المعرفة مسبقا) (التسمية يسنو المعرفة مسبقا) (التسمية تيمونيت تعريف بالفعل) (التسمية يسنو المعرفة مسبقا) هل لديك أي فكرة ما هذا التسمية بالفعل شيء محدد هو مهلا وعندما نحصل على منصتنا على الحمد لله على إغن الأمر هم أنا رأيت خطأ مثل هذا من قبل. تخميني هو أنه يتحدث عن التسميات المعرفة في كل ملف. هذه الملصقات تعلق لاحقا على المتغيرات ثم يتم عرض القيم الرقمية مع التسمية المقابلة لها. هل هذا في الواقع خطأ أو تحذير إذا كان خطأ، فإنه يظهر باللون الأحمر ويوقف البرنامج. إذا كان لها تحذير، في الأخضر ويمكنك الذهاب مع البرنامج الخاص بك دون مشكلة. إذا كان في الواقع خطأ، في محاولة لتشغيل دمج مع نولابيل الخيار. ملف المساعدة يقول أنه لن نسخ تسميات القيمة من استخدام الملفات. مهلا كنت نعم نعم كان مجرد تحذير وليس خطأ، واستخدام نولابيل لم إصلاح المشكلة. هيريس اقتراح لمنصب - أهمية استخدام ملفات السجل. أنا فقط كان قرمزي الذهاب لوبي على لي، وحذف كل رمز جميلة كنت قد كتبت على مدى 5 أيام الماضية. كان رمز جميل لحسن الحظ يمكنني استخدام ملف السجل الخاص بي لاسترداد التعليمات البرمجية وإعادة ملف بلدي - شكرا الخير. حتى الآن لقد وضعت في مكان نظام مستودع النسخ الاحتياطي السليم ولكن في هذه الأثناء أنا سعيد كنت تستخدم ملفات السجل بلوق لطيفة مع مقالات مثيرة للاهتمام. بدأت مشروع مماثل منذ فترة، ولكن لم أكن ديسوفر لك حتى الآن. مواكبة العمل الجيد مدونتك رائعة وشكرا على وقتك وجهودك لوضعه معا يجب أن ألحق 230 مجموعة بيانات معا (باستخدام الجمع الرأسي). هل لديك أي نصائح حول القيام بذلك في وقت واحد لدمج 230 إد يوصي النظر في المرحلة 6 في هذا البرنامج التعليمي. فإنه يدل على كيفية استخدام الحلقات. If your dataset files have a systematic name (file1.dta file2.dta. file230.dta) it would really be easy with a forvalues loop. Otherwise you can construct a long macro with all the filenames one after the other (except for the first). Load the first by the use command and then use a foreach loop to joinby, or merge, the other files to the accumulated dataset in memory. Youre awesome Thank you so much Hi Stataman I need some urgent help in understand of the mergins many datasets. I have to merge 6 to 7 datasets in fact. i these files like 1 to 7. I started with merging 1 with 2 using the code use 1 sort id save 1, clear use 2 sort id save 2, clear use 1 merge id using 2, no keep tab merge keep if merge3 use 1 . . . same pattern till I merged all the 7 files to 1. I got finally a merged datasets. My question is should i drop merge1 if i have to use repeated cross sectional sample. First of all you probably need to drop merge, if it exists from previous merges, before any merge. As to the merge 1 (those in memory that did not find a match in the file on disk you are merging into memory), it39s your decision. I don39t think there39s a rule. Maybe they were missing from the first dataset but have observations in datasets 2 to 7. Still in some projects dataset 1 might be crucial, so you might want to drop them after all. What I usually do is look at the most inclusive dataset (with all the ones that did not find a match), try to understand why there is no match and then decide according to what I got what I want to keep. Some times it39s only merge3, other times not. Thank you Statsman for the reply. I think I should give some more explanation to my query. I have 28 quartely collected data in 5 waves each and only 20 of the individuals repeated each wave so that whoever entered in the first wave, 20 of them are interviewed in 2nd waves and this over the 5th wave they exit. Now that there seems to be panel touch in it but it more generally used as a cross sectionally so I do not need to drop if an individual was contacted once. Now in this case if my datasets do not exactly match still I need to keep only merge3 and drop else. can you help me with the choice of merge or append command in that case. I have many variables with the same name and coding over the quarters. Wait, if you have a recurring cross-section, why are you merging it quothorizontallyquot instead of quotverticallyquot Usually you will have the same variables, right Just use the append command and add each wave below the other. You can add a variable that indicates which wave did the observation come from. I am sorry for late reply to your reply but I was unable and away so could not made that in time. Now after following some hints from these posting I think have to use the same append command and I can only have some slight confusion and I hope you would finally help me sort that out also. Ok I appended 28 waves only one wave have such recoded variables which are different from the other codes. For example rest waves codes countries by names and one have have numeric codes. I know I have to recode by tostring and replace commands but as there are more than 100 countries in the names so is there any way which will directly recodes these countries into naming codes instead of digits. I know there might not be but still want to confirm. Also would it be fine to use both the codes for the same named variables. I would recommend creating a dataset that will be like code dictionary. In it you can have a variable for each coding method. One for the numeric codes, another one for three-character country code, another for two-character etc (only if you need to). Then, if your original datasets are tidy, you can merge the relevant variables from the dictionary according to the code you have in the original file and the one you want in the big destination file. After you create the dictionary you only need to merge each file. One more thing to remember, though, is that some commands in Stata don39t like string values (for example, if you try fixed effects regression with xtreg). So maybe the best thing is to keep the numeric country code and maybe label the values with some string format of the country name - so that human eyes can read it easily too. I hope this helps, but I39m less and less sure. Hi Again I am really thanking you for your guidance which let me to work out most of the issues by now. Here the last thing I would like you to confirm for is that if I have the same type of variables like country and there are different answers to this questions like use dataset1 list country UK USA France Spain use dataset2 list countru UK USA Spain Germany. Would the apending the command would replace not being alike entries in the dataset or it would creat another category in the same variable. eg use apndeddataset list country UK USA Spain Germany France or it would add the entries alike and superimpose the dataset1 entry of france with germany. Please confirm it for me as I have more than hundred countries in my country variables I could not figured out how that appending the country variable in 8 different quarterly data would be consistent. The best way to learn that is to experiment. Try to construct datasets as you gave in the example and then do the append and see what happens. Append does not superimpose datasets on each other. It just puts the appended dataset below the dataset in memory. If you have the same variable name for country, it will put the appended observations39 countries in the same variable, but in the appended observations. If there are two names (country and countru), then a new variable named countru will be created and the first dataset39s observations will have missing values for countru whereas the appended dataset39s observations will have missing values for country. I39m pretty sure experimenting will be much more helpful than my comments. Nice Blog indeed Thanks THANK YOU SO SO SO MUCH Your site (the mergeappend post) just saved me from hours amp hours or further struggling (I39ve already spent many such hours). Thanks Thank you, I really needed a refresher on Stata. ) Your blog is wonderful. Hi Stataman, I am working on a project. I need to make combinations of variables of the common values in those variables and create new variables from these. For example, in one dataset, I have 8 variables so possible number of combinations would be 28 for two, 56 for three, 70 for four etc. I have worked out a way but this takes a long time. Can you help me write a shorter code or guide me which command(s) should be used to accomplish this. شكر. Nafees You can use the gen or egen command where gen newvar var1 if var2varvar3 format. This way all equal in values variables will be generated. Hi, I hope this question is not too basic, but I am new to Stata and don39t really know how to search for help with this question. I am analyzing data from the American National Election Study of 2008. In the post election part of the survey, respondents are asked two questions about their perception of government responsiveness. The problem is that about half of the respondents are asked one version (labeled quotoldquot question) of the first question. The other half are asked another version (labeled quotnewquot) of the first question. The only difference between the two versions, however, is the presence of the word quotaboutquot in one and its absence in the other. Thus, I want to assume that the questions are asking essentially the same thing. The second of these Government Responsiveness questions (the actual second question, not the second version of the first question) just has one version. I want to create a scale to combine the responses to the two Government Responsiveness questions. but don39t know how given the two versions of the first question. Normally, if two questions only have one version each, I would generate a new scaled variable to combine the two questions, as in gen NewScale (Question1 Question2). However, given that there are two versions of question 1, I don39t know how to do this. If you would help me I would be most helpful. شكرا على وقتك. I am merging data on 1 to 1, 1 to many, and many to one but i a m getting the message quotvariable hhid does not uniquely identify observations in the master dataquot When i merge on m to m data especially on group variables is becoming correlated. what can i do I used the following commands: use quotC:UsersMWENIAKDocumentsLCMS2006Education 14.08.2010.dtaquot, clear rename SEC4PID pid rename HID hhid sort hhid pid save newfile1.dta, replace use quotC:UsersMWENIAKDocumentsLCMS2006Household Roster and migration and poverty. dtaquot, clear sort hhid pid save newfile2.dta, replace I am merging data on 1 to 1, 1 to many, and many to one but i a m getting the message quotvariable hhid does not uniquely identify observations in the master dataquot When i merge on m to m there is no problem and it is successful, but data especially on group variables is becoming correlated. what can i do I used the following commands: use quotC:UsersMWENIAKDocumentsLCMS2006Education 14.08.2010.dtaquot, clear rename SEC4PID pid rename HID hhid sort hhid pid save newfile1.dta, replace use quotC:UsersMWENIAKDocumentsLCMS2006Household Roster and migration and poverty. dtaquot, clear sort hhid pid save newfile2.dta, replace Merges the three new files generated use newfile1.dta, clear merge 1:1 hhid using newfile2.dta tab merge check the file to verify that merge takes the appropriate value drop if merge3 drop merge Try to merge according to both hhid and pid: merge hhid pid using. Thanx for your quick response. I tried merging using both hhid and pid but i am getting the following error message: merge 1:1 hhid pid using newfile2.dta variables hhid pid do not uniquely identify observations in the master data This means your dataset has at least one case in which at least two observations share the same combination of hhid and pid. Stata doesn39t know which one of them to choose for the merge. You need to figure out exactly how your datasets are constructed. Using different egen commands can help you learn more about it. For example: egen c count(n), by(hhid pid) tab c browse if c gt 1 Will show you the cases that confuse the merge Thanx once again. I have managed to use the egen and got the following results: use quotC:UsersMWENIAKDocumentsLCMS2006Education 14.08.2010.dtaquot, clear rename SEC4PID pid rename HID hhid egen c count(n), by(hhid pid) tab c c Freq. Percent Cum. 1 95009 99.82 99.82 2 170 0.18 100 Total 95179 100 what can i do to make merge 1 to 1 possible. please advise I39m sorry I can39t help more, but I39d look at the 170 cases of 2 obs per hhid-pid combination and see why you have them. If they are just duplicates, drop one of each (duplicates command can help with that). If they are not exact duplicates, try to find out what distinguishes each observation in the pair and see maybe there39s a third variable you need to merge by. Thanx very much stataman. may almighty God bless you. your advice worked. i dropped the 170 cases and a 1to 1 merge worked. I39d drop only half of the 170 cases (those that are duplicates), not all of them. There is still valuable information in them. To keep just one instance of every group of the same hhid-pid you can: egen tag tag(hhid pid) keep if tag 1 drop tag Hi stataman. with your advise i managed to merge the first four files successfully. when i decided to merge three extra files to make 7 files there is a problem. variables from the second and third file were dropped from the final merged file. what can i do to retain all the variables in the seven files hi stataman i want to withdraw my earlier post. You took too long to reply. Therefore i made so many tries and research only to discover a typographical error in my do file. it is working perfectly. you are genius hi stataman i want to withdraw my earlier post. You took too long to reply. Therefore i made so many tries and research only to discover a typographical error in my do file. it is working perfectly. you are genius Hi Stataman I have two datasets, one baseline and one follow up each of these have unique ID for household (hhid). I want to merge these to construct a panel of it. I need your suggestions. Thanking you in anticipation. Stataman. You briliant. Thanks a lot I have a question regarding how to merge datasets. I want to combine datasets (individual data) from different countries where the categories for each variable will be different, for example with quotpolitical partyquot or quotprovincequot. Although they are the same variables, what do I do so that all of the categories for all three countries appear in the 39base39 dataset Right now I am trying to do this in SPSS but I am not sure how to continue or if I should try this in STATA. In one dataset I have added more categories for the political parties in each country, but do I have to recode them then in the original dataset before merging I hope this makes sense and thanks in advance for any advice you can give me Sorry, I meant to elaborate, I think this would be either a one to many merge or many to many merge. Another example like I said is the province variable where for one country there are certain provinces and for another country there are others. So the variable is the same, but the categories are different. I would really appreciate specifically on the best method to use and the commands I would need to do this. I have read over the post but any extra advice regarding my examples would help Our SLM household survey data contains a number of files pertaining to various socioeconomic aspects of the population. We have managed to merge different files with the master file by jointly using HHcode and IDC (the personal identifier). However, we are finding difficulty in merging the file containing data on remittances with the master file. This remittance file has only HHcode as identifier, and as is the case with other files, is not unique. One solution that works is to drop all non-unique HHcode observations in the remittance file, and then do a m:1 merge with the master file. We are wondering if there exists a better solution to the problem. I have a huge problem Im using data from WB and because its too big they divide it into 45 files. I merged them one by one. but then they have 2 files at the end with the weights. Im stuck, I really need the weights but how can I merge them since the variable dont correspond any little help would be highly appreciated hi, if i need to merge data based on more than one key variable, hw do i do it You can use options like 1:m, m:m and m:1. for more details, see help merge in Stata. Anees aneconomist dot com These multiple dataset are really very helpful. The discussion is really nice and getting some ideas. Very nice article and I am Obat Bius very happy to meet with your blog, the articles are very interesting, thank you for share very amazing article and I wait for the next quality articles. Thanks for your help regarding the already defined error when merging datasets That was helpful I am reading your post from the beginning, it was so interesting to read amp I feel thanks to you for posting such a good blog, keep updates regularly. Regards, Salesforce training in Chennai Excellent information with unique content and it is very useful to know about the information based on blogs. Selenium Training in Chennai QTP Training In Chennai In database computing, Oracle Real Application Clusters (RAC) 8212 an option for the Oracle Database software produced by Oracle Corporation and introduced in 2001 with Oracle9i 8212 provides software for clustering and high availability in Oracle database environments. Oracle Corporation includes RAC with the Standard Edition, provided the nodes are clustered using Oracle Clusterware. Oracle RAC allows multiple computers to run Oracle RDBMS software simultaneously while accessing a single database, thus providing clustering. In a non-RAC Oracle database, a single instance accesses a single database. The database consists of a collection of data files, control files, and redo logs located on disk. The instance comprises the collection of Oracle-related memory and operating system processes that run on a computer system. Whatever we gathered information from the blogs, we should implement that in practically then only we can understand that exact thing clearly, but it8217s no need to do it, because you have explained the concepts very well. It was crystal clear, keep sharing.. Microsoft SQL Server Training In Chennai Such a informative post. Thanks for sharing your knowledge with us. keep it up for updating post.. sonymobileservicecenterinchennai. inAboutUs. html Such a informative post. Thanks for sharing your knowledge with us. keep it up for updating post.. sonymobileservicecenterinchennai. inAboutUs. html WebMethods Training in Chennai This information is impressive I am inspired with your post writing style amp how continuously you describe this topic. After reading your post, thanks for taking the time to discuss this, I feel happy about it and I love learning more about this topic.. Econometricians Club (econometricians. club) offers an online course in Stata for Econometrics and as I am member of this blog since long, I wish to offer a discount to any of the blog-member in an online, one to one and private online course to be recorded for the participant for future use with custom module based on the participant specialization of research. The courses include: 1. Data Cleaning, Merging, Appending, Managing, Graphing 2. Analysis, Regression, Correlation, Hypothesis Testing 3. Regression Evaluation, Assumptions and Specification Tests 4. Modification of Models based on 3 where needed 5. Writing of Results in Academic Standards Those who register for this course and mention STATMANBLOG, I will give him a discount for around 50 of the course fee charged from normal students. This information is impressive..I am inspired with your post writing style amp how continuously you describe this topic. After reading your post, thanks for taking the time to discuss this, I feel happy about it and I love learning more about this topic.. Stataman: Your blog is really informative. How often do you clean spams nowadays There appear several spams: people are trying to sell their junk training courses. Could you help explain the difference in the following merging commands The first merge command I experimented is: . merge 1:m idgr using. idgr is the identifying var, which is created by grouping two vars, id and session The second is: . merge 1:m id session using. id and session are the two identifying vars The results of the two merging process are not the same. The first one gives less merged obs (merge3) than the second one does. Should I keep the second merge result or the first one Your point of selling junk courses can be true but for my own comment as an instructor of Econometrics using Staa at econometricians. club might be exclusion as it is fully relevant as I am always looking to this forum since 20092010. Now, the two codes are difference as the first one matches each observationvariable based on only on idgr while the second one makes pairs for unique combinations using the id session. Initially, the two datasets are compared for idgr only for first set of code and if that matches between the data, it is merged accordingly and merge results will be 3. Otherwise, it can be only in mainparent data or merging data. The second code first makes unique ids based on the pairs of id and session and where both the id and session matches between the two datasets, then it creates the merge 3 or it might be to the one or other datasets. I wish this explain simple explanation helps you understand the issue.
قيمنا شعبنا الرائد الناشر b2b، متخصصة في الانترنت، المجتمعات المهنية التفاعلية مع مجموعة من الخدمات بما في ذلك المواقع، منشورات البريد الإلكتروني، الجوائز والأحداث الصناعة، سيفت وسائل الإعلام يسلم الأصلي، وصفت المحتوى لأكثر من نصف مليون المهنيين في المحاسبة، تكنولوجيا المعلومات، الموارد البشرية والتدريب، والتسويق، والأعمال التجارية الصغيرة. من خلال إنتاج محتوى عالي الجودة وإشراك جمهورنا المهني عبر نقاط اتصال متعددة نقدم ل b2b ماركات فريدة من نوعها فرص التسويق التي تقدم عائد حقيقي على الاستثمار. قيمنا نحن نؤمن بإنشاء المحتوى، وتمكين المحادثات وتحويل فرص الأعمال التجارية، سواء بالنسبة لجمهورنا التجاري أو لعملائنا الإعلانيين. من خلال التركيز على المحتوى وتعزيز مشاركة المجتمع ونحن نهدف إلى خلق بيئات موثوقة وفريدة من نوعها للعلامات التجارية التجارية ورجال الأعمال لتحسين العلاقات. شعبنا شعبنا هو أعظم أصولنا، وكنا محظوظين لجذب بعض من أفضل المواهب الرقمية في البلاد. مع فريق الإدارة العليا العملي، ومديرو الحملات والحسابات من ذوي الخبرة، والمحررين الحائز على جائزة، وفريق الإنتاج والتكنولوجيا الر...
Comments
Post a Comment