培訓(xùn)啦 留學(xué) 托??荚?/a> > 中山托福培訓(xùn)

托??谡Z是機(jī)器打分還是人工打分

發(fā)布時(shí)間: 2025年01月03日 05:00

2025年【出國留學(xué)】申請條件/費(fèi)用/專業(yè)咨詢 >>

留學(xué)院校申請條件是什么?留學(xué)費(fèi)用是多少?學(xué)校留學(xué)專業(yè)都有哪些?

點(diǎn)擊咨詢

托??谡Z是機(jī)器打分還是人工打分

大家比較關(guān)心托??谡Z的打分方式,下面我就和大家聊聊這個(gè)話題。

【托??谡Z】托??谡Z評分時(shí)人工還是機(jī)器

托??谡Z本次改革引入自動評分系統(tǒng),其實(shí)這項(xiàng)計(jì)劃早就在準(zhǔn)備中了,這從ETS這份官方 報(bào)告 當(dāng)中就可以看出,其實(shí)現(xiàn)在所使用的引擎已經(jīng)是5.0版本的引擎,下面我們就來看一下托??谡Z機(jī)器評分的要點(diǎn)。

19年托福改革后,我們可以非??隙ǖ馗嬖V大家,托??谡Z一定是機(jī)器批改,至少機(jī)器批改參與了每一位同學(xué)的評分過程。ETS官方公布的數(shù)據(jù),最新版本的托福口語機(jī)器評分系統(tǒng)Speech Rater與人工評分的相關(guān)性系數(shù)是0.81。說實(shí)話,官方單純的拿這么一個(gè)統(tǒng)計(jì)學(xué)系數(shù)擺在我們的面前,對于考生或者是托福資深教師而言是沒有感覺的,這個(gè)系數(shù)到底是偏高還是偏低,究竟什么數(shù)值范圍值得我們進(jìn)行參考,根本就無從比較。

真人教師來核查的幾率不是100%的,所以盡量不要在結(jié)尾處留太多的空白。這樣機(jī)器肯定首先就會給考生扣分。但是為了防止教師來核查,復(fù)聽,建議考生在備考托??谡Z的時(shí)候,學(xué)會掌控時(shí)間,盡量不要超時(shí)太久。再給考生一個(gè)小建議:在托??谡Z考試中,盡量不要停止說話,如果沒話說就多說點(diǎn)套話,在平時(shí)的練習(xí)中,針對機(jī)經(jīng)上的重點(diǎn)話題進(jìn)行準(zhǔn)備。

隨著越來越多的年輕學(xué)生在世界范圍內(nèi) 學(xué)習(xí)英語 作為第二語言(English as a Foreign Language),為青少年語言學(xué)生(Young Language Students)設(shè)計(jì)的標(biāo)準(zhǔn)化語言考試 (比如托福考試)。

變得越來越受歡迎。鑒于這一快速增長的趨勢,需要更好地理解年輕學(xué)生的語言發(fā)展模式和語言表現(xiàn)的語言特征成為語言學(xué)教師的需求。根據(jù)2014年,兩位口語測評學(xué)者Bailey&Heritage的研究,語言發(fā)展模式和語言表現(xiàn)對于語言學(xué)評估的創(chuàng)建提供指導(dǎo)和指導(dǎo)至關(guān)重要。ETS于是系統(tǒng)地進(jìn)行實(shí)證研究:在青少年語言學(xué)生中檢查其英語語言能力(English Language Proficiency)的進(jìn)展以便驗(yàn)證青少年語言學(xué)生評估任務(wù)和評分標(biāo)準(zhǔn),并為基于測試結(jié)果的提供有效性證據(jù)(Kane,2013)。

在目前ETS采用的機(jī)改Speech Rater的系統(tǒng)中,對于托??谡Z測評是何以科學(xué)、公正以及客觀地對考生們進(jìn)行評價(jià)的呢?根據(jù)ETS最新的一項(xiàng)研究, 自1996年就有語言學(xué)學(xué)者(Ginther et al., 2010; Towell, Hawkins, & Bazergui, 1996) 使用平均話語長度(mean length of run) 這項(xiàng)指標(biāo)來對考生們的流利度進(jìn)行測評。

通俗易懂的說法,就是在托??荚囍心愕乃?huh", "uh", "erm", "um", and “well" (filled pause)都會被計(jì)數(shù),當(dāng)頻率高到一定程度,就會被認(rèn)為是弱流利度,另一種就是沉默(silent pauses), 在整個(gè)口語回答的過程中如果出現(xiàn)長間斷,那么系統(tǒng)會自動把你的口語歸為弱流利度。而托??谡Z考試的不同任務(wù)(task)其對考生們的語言能力和認(rèn)知能力都有所不同,因此在進(jìn)行口語獨(dú)立任務(wù)(independent speaking task)設(shè)計(jì)和口語綜合任務(wù)(integreated speaking task)設(shè)計(jì)的過程中。

在這項(xiàng)研究中,青少年(YLS)與成人考生(Adult learner)的流利度水平在兩個(gè)任務(wù)的機(jī)評效果中都出現(xiàn)了較為穩(wěn)定的表現(xiàn)。因此我們可以得出客觀結(jié)論,在口語流利度方面,考生們在口語獨(dú)立任務(wù)和口語綜合任務(wù)之間較少會出現(xiàn)流利度偏差。

最新的5.0引擎當(dāng)中,最新版的引擎已經(jīng)極為接近于真人閱卷者進(jìn)行了評分,在ets官方所發(fā)布的資料當(dāng)中,真人評分和機(jī)器評分的相關(guān)系數(shù)已經(jīng)達(dá)到了0.81,換句話說也就是,ETS在告訴大家:我們這套系統(tǒng)已經(jīng)做得挺好了,已經(jīng)敢拿出來給你們看一看了。最為影響最終分?jǐn)?shù)的3個(gè)影響因素,他們分別是:平均沉默時(shí)長,單詞重復(fù)率,和語速。

今天我們再來看另外8個(gè)重要的影響因素。

很顯然在這里排名第4位的影響因素,就是Total acoustic model score for all words with model trained on native data,看了這段生澀的語言,說實(shí)話無老師也有點(diǎn)要吐了。這個(gè)名詞,還真有點(diǎn)不是特別好解釋??偠灾?,這個(gè)其實(shí)涉及到ETS在評分過程當(dāng)中具體的一個(gè)流程,也就是在Speech Rater進(jìn)行評分的時(shí)候,其實(shí)有一個(gè)關(guān)鍵性的步驟,就是讓機(jī)器來識別,考生本人所說的英語是否是地道的英語,這個(gè)主要是從發(fā)音和節(jié)奏來進(jìn)行判斷,就是當(dāng)你的口語越接近于地道的發(fā)音,那么你的分?jǐn)?shù)越高,反之亦然。這個(gè)影響系數(shù)達(dá)到了0.81,因此也就有了下面第2條影響因素,Total acoustic model score with model trained on nonnative data。

如上的4條,是所有的影響系數(shù)高于0.7的影響因素,接下來所列出的7條,影響系數(shù)全都低于0.7且高于0.5,這也就意味著對于最終分?jǐn)?shù)的影響,沒有前面4條影響那么大,但是同時(shí)也比較重要。

其中4條高于0.6的影響因素分別是,

Average of chunk length in seconds——平均意群的長度

No.repetitions——重復(fù)程度

Score point with the highest grammatical similarity score——語法的相似程度

Total no. different lexical types——詞匯的多樣性

Average of chunk length in seconds——平均意群的長度,歸屬大類Fluency——流暢:影響因子0.66,

這意味著,句子 如果全都是三個(gè)詞,類似于I like you的簡單句,那么得分一定會偏低,但是如果能多用一些固定搭配、或者一些修飾性的成分,使得這個(gè)句子一方面不脫離口語化,不會像書面語那么復(fù)雜,同時(shí)句式的內(nèi)容也可以比較豐富和飽滿,那么得分就會提高。當(dāng)然這一條的解讀還可以有很多的層次,無老師在此就先不一一展開了。

No.repetitions——重復(fù)程度,歸屬大類Fluency——流暢:影響系數(shù)0.61。

把重復(fù)程度放在流暢程度當(dāng)中,說實(shí)話有點(diǎn)奇怪,既然放在流暢程度這個(gè)大類當(dāng)中,估計(jì)在這里面所表述的是,你是否會出現(xiàn)結(jié)巴的情況,也就是會連續(xù)反復(fù)同一句話。

托??谡Z評分標(biāo)準(zhǔn)

口語“are rated by three to six raters”指的是每道題只有一位考官打分,但不同題目的打分考官可能不同,一位考生的六道題目最少會有三位考官,最多會有六位( 每道題一位)。最后評分不會特別偏重某類題型,比如說獨(dú)立或綜合。所以,總體而言,ETS 的評分用一個(gè)詞來講是:holistic,即,考慮考試口語內(nèi)容的整體性。也就是說,ETS 口語評分標(biāo)準(zhǔn)不會因某個(gè)具體方面而出現(xiàn)偏重,如,在不影響理解的前提下,語音語調(diào)不好不會成為扣分原因。在holistic 這一標(biāo)準(zhǔn)下,ETS 的最重要考慮因素是:intelligible, 可理解為可以順暢的讓考官聽懂考生的表述內(nèi)容。在holistic 和intelligible 兩個(gè)標(biāo)準(zhǔn)之外,對答題內(nèi)容而言,有如下三個(gè)評分維度:

1.Structure

2.Content

3.Language

Structure,即結(jié)構(gòu),總體來講,ETS 評分官特別希望考生能夠在答題部分給出清晰的結(jié)構(gòu)。其中結(jié)構(gòu)要求主要包括:

1)主題句thesis statement:在開頭部分明確地表明自己的觀點(diǎn)。

2)過渡詞:在中間部分有明顯的邏輯連接詞或表過渡的信號提示詞。

3)結(jié)論:如果時(shí)間允許,做簡單地 總結(jié) 。

content, 即內(nèi)容。ETS 有如下要求:

1)主題明確:明確地給出觀點(diǎn)。

2)簡單明了:不要過多的使用bigwords 和復(fù)雜句型;用考生經(jīng)常使用熟練的詞匯。

3)細(xì)節(jié)論點(diǎn)到位:獨(dú)立話題例子論點(diǎn)和細(xì)節(jié)提供詳細(xì);綜合話題涉及聽力和閱讀部分分別提到的具體信息,如,Task5 的聽力部分女學(xué)生提到自己很忙,困惑于時(shí)間的安排,最近需要:準(zhǔn)備考試,寫2 篇論文,還有一個(gè)志愿者活動要參加。ETS 對于細(xì)節(jié)的期待是:希

望考生可以將學(xué)生需要完成的事情:準(zhǔn)備考試,寫2 篇論文,還有一個(gè)志愿者活動要參加這些細(xì)節(jié)都囊括到自己的回答部分中。所以,可以看出,ETS 十分看重考生對聽力和閱讀部分細(xì)節(jié)信息的整理和轉(zhuǎn)述。

language,即語言,語言的要求包括:

1)流暢:對語速的要求并不是越快越好。最好考生是sustained speed, 即能夠以穩(wěn)定的速度順暢的表達(dá)自己的觀點(diǎn),中間偶有小的停頓可以接受。

2)語音:發(fā)音標(biāo)準(zhǔn)是前提,語音語調(diào)地道對分?jǐn)?shù)有一定的積極影響。ETS 給出評分參考是:只要不影響評分官的理解,即使語音語調(diào)不好,也不會扣分或影響分?jǐn)?shù)。

3)允許語法錯誤:ETS 口語評分原則中明確指出考生的表述中可以存在小的語法錯誤,但是語法錯誤不允許重復(fù)出現(xiàn)。

很多考生對于口語評分經(jīng)常會抱有疑問,進(jìn)而會選擇復(fù)議。而口語成績的復(fù)議成功率是有跡可循的。

托??谡Z評分標(biāo)準(zhǔn)哪一個(gè)點(diǎn)最重要?

托??谡Z評分采取 Holistic Rubric Standing(整體評分制),即同時(shí)參照以下三個(gè)標(biāo)準(zhǔn)進(jìn)行整體打分:Delivery(語言表達(dá))、Language Use(語言使用)、Topic Development(話題展開)。但是,對多數(shù)中國考生來說,主 要問題是 Delivery(語言表達(dá))不夠清晰、流暢,所以學(xué)習(xí)重心應(yīng)該放在提高流暢性和清晰度上面。

托??谡Z是機(jī)器打分還是人工打分相關(guān) 文章 :

1. 清楚了解托??谡Z的評分標(biāo)準(zhǔn)

2. 4個(gè)層面進(jìn)行闡述新托??谡Z考試評分標(biāo)準(zhǔn)

3. 托福口語幾分算高及快速提分技巧

4. 托??谡Z考試多少分算高分

5. 中國考生在參加托福口語時(shí)總是低分的三大問題大剖析

6. 托??谡Z成績復(fù)議一般多久

7. 托福口語考試一共多少道題

8. 托??谡Z備考到底要不要背?合理記憶才能助力口語提分

9. 這些問題你遇到過嗎?托福口語備考的3大難點(diǎn)

10. 托??谡Z流利不是高分的保障

托??谡Z是機(jī)器評分還是人評分

托??谡Z是機(jī)器評分還是人評分:托福口語目前采用人工評分和機(jī)器評分相結(jié)合。托福口語機(jī)器評分是把答案錄音老師再判分,口語滿分為24分,轉(zhuǎn)換為標(biāo)準(zhǔn)分后滿分為30分。有4個(gè)評分標(biāo)準(zhǔn),分別是4分、3分、2分、1分。

在19年托福改革后,托??谡Z機(jī)器批改的程度大大提高,至少機(jī)器批改參與了每一位同學(xué)的評分過程。ETS官方公布的數(shù)據(jù),最新版本的托??谡Z機(jī)器評分系統(tǒng)SpeechRater與人工評分的相關(guān)性系數(shù)是0.81。

真人教師來核查的幾率不是百分百的,所以盡量不要在結(jié)尾處留太多的空白。這樣機(jī)器肯定首先就會給考生扣分。但是為了防止教師來核查,復(fù)聽,建議考生在備考托福口語的時(shí)候,學(xué)會掌控時(shí)間,盡量不要超時(shí)太久。

再給考生一個(gè)小建議:在托福口語考試中,盡量不要停止說話,如果沒話說就多說點(diǎn)套話,在平時(shí)的練習(xí)中,針對機(jī)經(jīng)上的重點(diǎn)話題進(jìn)行準(zhǔn)備。

托福口語評分標(biāo)準(zhǔn),托福口語中包含六道題,每道題只有45-60秒的作答時(shí)間,具體評分細(xì)則如下:

1. 每道口語題會被一位考官給一個(gè)原始分(0-4 之間的整數(shù)分)。

2. 一個(gè)考生的六道口語題,會被至少兩到三位考官評分。

3. 六道口語題的分?jǐn)?shù)加在一起(0-24分),取算數(shù)平均值(0-4分之間,但會出現(xiàn)小數(shù)點(diǎn)后0/.83/.66/.50/.33/.16
六種不同情況)。

4. 該平均值根據(jù)一定的規(guī)則,轉(zhuǎn)換為0-30分的總分。

托??谡Z要求:

第1、2題是獨(dú)立回答題,要求考生就某一話題闡述自己的觀點(diǎn)。準(zhǔn)備時(shí)間為15秒,回答問題時(shí)間為45秒。問題被朗讀出來,同時(shí)會出現(xiàn)在屏幕上。

第3、4題要求考生首先在45秒內(nèi)閱讀一段短文,隨后把短文隱去,播放一段與短文有關(guān)的對話或課堂演講。最后,要求考生根據(jù)先前閱讀的短文和播放的對話或課堂演講回答相關(guān)問題,考生有30秒鐘的準(zhǔn)備時(shí)間,然后進(jìn)行60秒鐘的回答。

第5、6題要求考生聽一段校園情景對話或課堂演講,然后回答相關(guān)問題??忌?0秒鐘的準(zhǔn)備時(shí)間,之后進(jìn)行60秒鐘的回答。

托??谡Z是誰批改的?

托福英語有機(jī)改也有人為批改
是由美國教授批改的(大部分是普林斯頓大學(xué)的)考場當(dāng)?shù)氐挠⒄Z水平(特別是口音)其實(shí)影響不大,他們考察的主要是邏輯。你想,印度人的口語平均分比中國人都高,肯定不是因?yàn)榭谝舭?/p>

托福考試機(jī)器批改還是人工批改

寫作部分機(jī)器參與批卷 也就是e-rater 因?yàn)樽罱捎诮鹑谖C(jī) 如果全是老師批 薪水ets付不起
當(dāng)然 人工還是要參與到寫作評分中 主要是為了防止機(jī)器有故障導(dǎo)致慘案發(fā)生
口語的話 我相信機(jī)器不可能參與到批卷 否則 印度阿三或者日韓同志 不就天天慘案了?

雅思考試 托福考試 留學(xué)攻略 留學(xué)院校庫

溫馨提示:
本文【托??谡Z是機(jī)器打分還是人工打分】由作者教培參考提供。該文觀點(diǎn)僅代表作者本人,培訓(xùn)啦系信息發(fā)布平臺,僅提供信息存儲空間服務(wù),若存在侵權(quán)問題,請及時(shí)聯(lián)系管理員或作者進(jìn)行刪除。
我們采用的作品包括內(nèi)容和圖片部分來源于網(wǎng)絡(luò)用戶投稿,我們不確定投稿用戶享有完全著作權(quán),根據(jù)《信息網(wǎng)絡(luò)傳播權(quán)保護(hù)條例》,如果侵犯了您的權(quán)利,請聯(lián)系我站將及時(shí)刪除。
內(nèi)容侵權(quán)、違法和不良信息舉報(bào)
Copyright @ 2024 培訓(xùn)啦 All Rights Reserved 版權(quán)所有. 湘ICP備2022011548號 美國留學(xué) 留求藝